sam文件格式说明_教程

bowtie2是当前最流行的短序列比对软，SAM（SequenceAlignment/Map）格式是一种通用的比对格式，用来存储reads到参考序列的比对信息SAM是一种序列比对格式标准，由sanger制定，是以TAB为分割符的文本格式。

主要应用于测序序列mapping到基因组上的结果表示，当然也可以表示任意的多

重比对结果

SAM分为两部分：注释信息和对比结果

注释信息以@开头

@HD：说明符合标准的版本。对比序列的排列顺序

@SQ：参考序列说明

@RG：比对上的序列（read）说明

@PG：使用的程序说明

@CO：任意的说明信息

比对结果部分

每一行代表一个片段的比对信息，包括11个必须的字段和一个可选字段，字段之间用tag分割

11个必须字段：

1：比对片段（read）的编首滚仿号

2.位标识（flag）每一种数字代表一种情况，这里的值是符合情况的数字和

3.参考序列的编号，没有比对上的序列，这里为 *

4.比对上的位置从1开始计数，没有比对上此处为0

5.MAPQ：mapping的质量

6.CIGAR:简要比对信息表达式以参考序列为基础，使用数字加字幕表示比对结果

比如3S6M1P1I4M，前三个碱基被剪切去除了，然后6个比对上了，

然后打开了一个缺口，有一个碱基插入，最后是4个比对上了，是按照顺序的

“M”表示 match或 mismatch；

“I”者纤表示 insert；

“D”表示 deletion；

“N”表示 skipped（跳过这段区域备轿）；

“S”表示 soft clipping（被剪切的序列存在于序列中）；

“H”表示 hard clipping（被剪切的序列不存在于序列中）；

“P”表示 padding；打开缺口

“=”表示 match；

“X”表示 mismatch（错配，位置是一一对应的）

7.下一个片段比对上的参考序列的标号，没有另外的片段这里为 * ，同一个片段 =

8.下一个片段比对上的位置，如果不可用，此处为0

9.Template的长度，最左边得为正，最右边的为负，中间的不用定义正负，

不分区段（single-segment)的比对上，或者不可用时，此处为0；

10.比对上的序列片段的序列信息，如果不存储此类信息，此处为’*‘，

长度=简要比对信息表达式算出来的结果

11.序列的质量信息，格式同FASTQ一样

SAM 是sequence alignment format [ http://samtools.github.io/hts-specs/SAMv1.pdf] 的缩写， BAM文件是SAM的二进制文件。当测序生成的fastq文件比对到参考基因组余高后就会生成SAM文件或者BAM文件。大部分的数据分析都是始于SAM文件。

SAM格式文件包括头部注释部分和比对结果部分，头部分为''可选部分''。头部分位于比正笑对举毁含部分之前，以“@”开头。比对部分有 11列是固定的，其他多列可选。看如下例子：

比对结果部分每行标示一个read与参考序列的比对信息，前11列为必须字段，顺序固定。其余列是可选字段。前11列如下解释：

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/8217919.html

sam文件格式说明

发表评论

评论列表（0条）