SAMBAM文件解读_教程

sam是短序列比对默认的标准格式，是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示，另外也可以表示其他的多重比对结果。一般把测序reads比对到参考基因组以后，通常得到的就是sam文件。BAM就是SAM的二进制文件，具有更小的存储空间，并且许多下游分析工具使用的是BAM格式。

第1列：fastq的read ID

第2列：FLAG（如果某一个数值不是下面的任意值，那么那个数值就是下面这些数里面几个的和）

第3列：染色体名称。如果这列是“ * ”，可以认为这条read没有比对上的序列，则这一行的第四，五，八，九列是“0”，第六，七列与该列是相同的表示方法。

第4列：比对的位置，从对应上的染色体第1位开始往后计算。没有比对上的，此处为0。

第5列：MAPQ比对质量值。越高说明该read比对到参考基因组上的位置越唯一，0表示在参考基因组有多种定位的可能性。60表示在参考基薯裤因组只有这一种定位位置。

第6列： M表示匹配、I表示插入、D表示删除、N表示内含子和D类似、S表示替换、族手灶H表示剪切。

第7列 : 这条reads第二次比对的位置。=表示参考序列与reads一模一样，*表示没有完全一模一样的参考序列。

第8列 : 该列表示与该reads对应的mate pair reads的比对位置（即mate），若无mate,则为0。

第9列 : 序列模板长度，如果同一个片段都比对上了同一个参考序列，为最左边的碱基位置到最右边的碱基位置（左为正，右为负）。当mate 序列位于本序列上游时该值为负值。不兆扮可用时，为0。

第10列 : read的序列。

第11列 : ASCII码格式的序列质量。格式同FASTQ一样。其中1、10、11合起来就是fq格式文件。

第12列 : 可选的区域。格式类似AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU

线性对齐：一条read比对到参考序列上，可以存在插入(insert)、缺失(delete)、跳跃(skip)、剪切(clip)，但是方向不变（不能是一部分和正链匹配，另一部分又和负链匹配），sam文件中只占用一行记录。

嵌合比对：由于一条测序read比对到基因组上时分别比对到两个不同的区域，而这两个区域基本没有接触和重叠。因此它在sam文件中需要占用多行记录显示。只有第一个记录称作"representative",其他的都是"supplementary"。RNA-seq中的chimeric read或许可以说明有融合基因存在，但在基因组中一般作为结构变异的证据。

SAM 是sequence alignment format [ http://samtools.github.io/hts-specs/SAMv1.pdf] 的缩写， BAM文件是SAM的二进制文件。当测序生成的fastq文件比对到参考基因组余高后就会生成SAM文件或者BAM文件。大部分的数据分析都是始于SAM文件。

SAM格式文件包括头部注释部分和比对结果部分，头部分为''可选部分''。头部分位于比正笑对举毁含部分之前，以“@”开头。比对部分有 11列是固定的，其他多列可选。看如下例子：

比对结果部分每行标示一个read与参考序列的比对信息，前11列为必须字段，顺序固定。其余列是可选字段。前11列如下解释：

由于SAM文件受系统保护，没有办法直接打开的。

用冰刃程序的“文件”管理，找到SAM文件拷贝出来，就可以用记事本打开了，不过打开后里面的内容在部分是乱码。

由于SAM文件里存储了一些硬件的配置信息，删除后系统扰银带就会出错的，若要解读其中的内容表示什么不会很容易的。

像这样的相关资料是很难找到的，如果真想知道可以把PE系统中的破解用户密码的程序进行逆向工程，这样可能更快一些。关键是要有相缓芦当高的技术水平搏轮才行。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12194224.html

SAMBAM文件解读

发表评论

评论列表（0条）