sam格式的简单了解

sam格式的简单了解,第1张

部分转自生信菜鸟团公众号

SAM的全称是sequence alignment/map format。而BAM就是SAM的二进制文件雹配梁(B源自binary)。

SAM 格式主要包括两大部分:

1 .标头注释部分(header section)

2 .比对结果部分(alignment section)

SAM格式是用来来支持高通量测序数据分析:

(1):快速查找与坐标重叠的比对。例如,选择与染色体2上的坐标323,567,334重叠的比对。

(2):根据read的属性进行选择和过滤。例如,我们希望能够快速选择能过比对到反向链上的read。

(3):有效地存储数据。例如,从SAM格式转化成BAM格式,单个压缩文件包含所有样本的数据,每个样本都以某种方式标记。

标头注释部分

标头信息可有可无,都是以@开头,用不同的tag表示不同的信息

比对结果部分

每一列表示一个read的比对信息,包括11个必须的字段和一个可选字段,字段之间用tag分割。必须的字段有11个,顺序固定。这11个字段包括:

第一列: Query Name (QNAME)

这一列代表着比对片段的(template)的编号

第二列:FLAG

这是一种常用且高效的保存多个布尔特征值的方法。

举个简单的例子: 在 SAM 格式中,当 flag 为 1,也即对应的二进制为 01 时,表示该 read 有多个测序数据 , 一般理解为有双端测序数据 (另一条没被过滤掉), 而 flag 为 2, 也即二进制 10 时, 表示这条 read 的多个片断都有比对结果, 通常理解为双端 reads 都比对上了, 那么就可以推断出 flag 为 3 时, 也即二进制的 11, 表示该 read 有另一端的 read 并且比对成功, 可以看到, 其实就是 01 加 10。

一般flag值不需要自己去算,直接将flag值导入网站即可

http://broadinstitute.github.io/picard/explain-flags.html

所有flag对应值的含义

1 : 代表这个序列采用的是PE双端测序

2: 代表这个序列和参考序列完全匹配,没有插入缺失

4: 代表这个序列没有mapping到参考序列上

8: 代表这个序列的另一端序列没有比对到参考序列上,比如这条序列是R1,它对应的R2端序列没有比对到参考序列上

16:代表这个序卖猛列比对到参考序列的负链上

32 :代表这个序列对应的另一端序列比对到参考序列的负链上

64 : 代表这个序列是R1端序列, read1

128 : 代表这个序列是R2端序列,read2;

256: 代表这个序列不是主要的比对,一条序列可能比对到参考序列的多个位置,只有一个是首要的比对位置,其他都是次要的

512: 代表这个序列在QC时失败了,被过滤不掉了(# 这个标签不常用)

1024: 代表这个序列是PCR重复序列(#这个标签不常用)

2048: 代表这个序列是补充的源运比对(#这个标签具体什么意思,没搞清楚,但是不常用)

第三列: Reference Name (RNAME)

reference sequence name,实际上就是比对到参考序列上的染色体号。若是无法比对,则是*

第四列: Position (POS)

比对上的位置,注意是从1开始计数,没有比对上,此处为0

第五列:Mapping Quality (MAPQ)

比对的质量;比对的质量分数,越高说明该read比对到参考基因组上的位置越准确

第六列:Compact Idiosyncratic Gapped Alignment Representation (CIGAR)

CIGAR 代表着简要比对信息表达式,其以参考序列为基础,使用数字加字母表示比对结果

例如 3S6M1P1I4M

前三个碱基被剪切去除了,然后6个比对上了,然后打开了一 个缺口,有一个碱基插入,最后是4个比对上了。

这里的总长度对应的就是测出来的一条序列的长度,如果是PE100,这里加起来就应该是100,如果是PE150,这里加起来就是150,这里的长度和第10列的长度是一致的

第七列:RNEXT

双端测序中下一个reads比对的参考系列的名称。“*”是完全没有比对上,“=”代表完全比对

第3和第7列,可以用来判断某条reads是否比对成功到了基因组的染色体,左右两条reads是否比对到同一条染色体

第八列:PNEXT

如果是双端测序,是指另一端匹配到参考基因组的位置,如果设置为0,那么该列不可用

第九列:TLEN Template的长度

最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0

区别于第6列和第10列是对应测出来的序列的长度。这里第9列的长度是对应插入片段的长度,insert size,也就是建库时,将DNA片段打断成的长度。

第十列:Sequence

序列片段的序列信息,如果不存储此类信息,此处为’*‘,注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;就是read的碱基序列,如果是比对到互补链上则是reverse completed。

就是测序的reads序列信息

第十一列:ASCII

read质量值

其实很容易发现,如果将第1,10,11列提取出来的话,就能还原成我们常见的fastq格式信息。

第十二列:Optional fields

可选的区域

格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。

备注

看一下KPGP-00001这个韩国人的测序reads比对到hg38的其中一个lane的sam格式部分信息:

可以看出这个是用的PE90测序,测序read长度为90bp,建库打断成约490bp,这个read名称是B80KJTABXX:4:1:1404:2065#CTAGTTAT,flag值是163,代表着

reads是比对到7号染色体,比对的位置是50962731,比对的质量值是60,"90M"意味着90个碱基都match(当然可能是mismatch),“=”意味着双端测序的另一条read也比对上,并且是比对到同一个片段,另一条read比对的位置是

50963137 ,这条read的序列信息是“AGAAAATTATTTAAATGACCCGAGCCTCACCTTCAACATGAGGAACATCAT

ATTCCCTTTGATAAAATGTTGCTGGTGTAAGTGCTCCAT ”

对应质量值分ASCII值为“gggfgfggeggdgggadegggdegegeeggeegedggegggeggegedgggedgggfggeceeggaedgcgggggecgaQ_`X``BBBBB ”

以上。

sam是短序列比对默认的标准格式,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,另外也可以表示其他的多重比对结果。一般把测序reads比对到参考基因组以后,通常得到的就是sam文件。BAM就是SAM的二进制文件,具有更小的存储空间,并且许多下游分析工具使用的是BAM格式。

第1列 :fastq的read ID

第2列 :FLAG(如果某一个数值不是下面的任意值,那么那个数值就是下面这些数里面几个的和)

第3列 :染色体名称。如果这列是“ * ”,可以认为这条read没有比对上的序列,则这一行的第四,五,八,九 列是“0”,第六,七列与该列是相同的表示方法。

第4列 :比对的位置,从对应上的染色体第1位开始往后计算。没有比对上的,此处为0。

第5列 :MAPQ比对质量值。越高说明该read比对到参考基因组上的位置越唯一,0表示在参考基因组有多种定位的可能性。60表示在参考基薯裤因组只有这一种定位位置。

第6列 : M表示匹配、I表示插入、D表示删除、N表示内含子和D类似、S表示替换、族手灶H表示剪切。

第7列 : 这条reads第二次比对的位置。=表示参考序列与reads一模一样,*表示没有完全一模一样的参考序列。

第8列 : 该列表示与该reads对应的mate pair reads的比对位置(即mate),若无mate,则为0。

第9列 :  序列模板长度,如果同一个片段都比对上了同一个参考序列,为最左边的碱基位置到最右边的碱基位置(左为正,右为负)。当mate 序列位于本序列上游时该值为负值。不兆扮可用时,为0。

第10列 : read的序列。

第11列 : ASCII码格式的序列质量。格式同FASTQ一样。其中1、10、11合起来就是fq格式文件。

第12列 : 可选的区域。格式类似AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU

线性对齐: 一条read比对到参考序列上,可以存在插入(insert)、缺失(delete)、跳跃(skip)、剪切(clip),但是方向不变(不能是一部分和正链匹配,另一部分又和负链匹配),sam文件中只占用一行记录。

嵌合比对: 由于一条测序read比对到基因组上时分别比对到两个不同的区域,而这两个区域基本没有接触和重叠。因此它在sam文件中需要 占用多行记录 显示。只有第一个记录称作"representative",其他的都是"supplementary"。RNA-seq中的chimeric read或许可以说明有融合基因存在,但在基因组中一般作为结构变异的证据。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/12198920.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存