主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多
重比对结果
SAM分为两部分:注释信息和对比结果
注释信息以@开头
@HD:说明符合标准的版本。对比序列的排列顺序
@SQ:参考序列说明
@RG:比对上的序列(read)说明
@PG:使用的程序说明
@CO:任意的说明信息
比对结果部分
每一行代表一个片段的比对信息,包括11个必须的字段和一个可选字段,字段之间用tag分割
11个必须字段:
1:比对片段(read)的编首滚仿号
2.位标识(flag)每一种数字代表一种情况,这里的值是符合情况的数字和
3.参考序列的编号,没有比对上的序列,这里为 *
4.比对上的位置 从1开始计数,没有比对上此处为0
5.MAPQ:mapping的质量
6.CIGAR:简要比对信息表达式 以参考序列为基础,使用数字加字幕表示比对结果
比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,
然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的
“M”表示 match或 mismatch;
“I”者纤表示 insert;
“D”表示 deletion;
“N”表示 skipped(跳过这段区域备轿);
“S”表示 soft clipping(被剪切的序列存在于序列中);
“H”表示 hard clipping(被剪切的序列不存在于序列中);
“P”表示 padding;打开缺口
“=”表示 match;
“X”表示 mismatch(错配,位置是一一对应的)
7.下一个片段比对上的参考序列的标号,没有另外的片段这里为 * ,同一个片段 =
8.下一个片段比对上的位置,如果不可用,此处为0
9.Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,
不分区段(single-segment)的比对上,或者不可用时,此处为0;
10.比对上的序列片段的序列信息,如果不存储此类信息,此处为’*‘,
长度=简要比对信息表达式算出来的结果
11.序列的质量信息,格式同FASTQ一样
SAM 是sequence alignment format [ http://samtools.github.io/hts-specs/SAMv1.pdf] 的缩写, BAM文件是SAM的二进制文件 。当测序生成的fastq文件 比对到参考基因组余高 后就会生成SAM文件或者BAM文件。大部分的数据分析都是始于SAM文件。
SAM格式文件包括 头部注释部分 和 比对结果部分 ,头部分为''可选部分''。头部分位于比正笑对举毁含部分之前, 以“@”开头 。比对部分有 11列是固定 的,其他多列可选。看如下例子:
比对结果部分每行标示一个read与参考序列的比对信息,前11列为必须字段,顺序固定。其余列是可选字段。前11列如下解释:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)