第1列 :fastq的read ID
第2列 :FLAG(如果某一个数值不是下面的任意值,那么那个数值就是下面这些数里面几个的和)
第3列 :染色体名称。如果这列是“ * ”,可以认为这条read没有比对上的序列,则这一行的第四,五,八,九 列是“0”,第六,七列与该列是相同的表示方法。
第4列 :比对的位置,从对应上的染色体第1位开始往后计算。没有比对上的,此处为0。
第5列 :MAPQ比对质量值。越高说明该read比对到参考基因组上的位置越唯一,0表示在参考基因组有多种定位的可能性。60表示在参考基薯裤因组只有这一种定位位置。
第6列 : M表示匹配、I表示插入、D表示删除、N表示内含子和D类似、S表示替换、族手灶H表示剪切。
第7列 : 这条reads第二次比对的位置。=表示参考序列与reads一模一样,*表示没有完全一模一样的参考序列。
第8列 : 该列表示与该reads对应的mate pair reads的比对位置(即mate),若无mate,则为0。
第9列 : 序列模板长度,如果同一个片段都比对上了同一个参考序列,为最左边的碱基位置到最右边的碱基位置(左为正,右为负)。当mate 序列位于本序列上游时该值为负值。不兆扮可用时,为0。
第10列 : read的序列。
第11列 : ASCII码格式的序列质量。格式同FASTQ一样。其中1、10、11合起来就是fq格式文件。
第12列 : 可选的区域。格式类似AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU
线性对齐: 一条read比对到参考序列上,可以存在插入(insert)、缺失(delete)、跳跃(skip)、剪切(clip),但是方向不变(不能是一部分和正链匹配,另一部分又和负链匹配),sam文件中只占用一行记录。
嵌合比对: 由于一条测序read比对到基因组上时分别比对到两个不同的区域,而这两个区域基本没有接触和重叠。因此它在sam文件中需要 占用多行记录 显示。只有第一个记录称作"representative",其他的都是"supplementary"。RNA-seq中的chimeric read或许可以说明有融合基因存在,但在基因组中一般作为结构变异的证据。
SAM 是sequence alignment format [ http://samtools.github.io/hts-specs/SAMv1.pdf] 的缩写, BAM文件是SAM的二进制文件 。当测序生成的fastq文件 比对到参考基因组余高 后就会生成SAM文件或者BAM文件。大部分的数据分析都是始于SAM文件。
SAM格式文件包括 头部注释部分 和 比对结果部分 ,头部分为''可选部分''。头部分位于比正笑对举毁含部分之前, 以“@”开头 。比对部分有 11列是固定 的,其他多列可选。看如下例子:
比对结果部分每行标示一个read与参考序列的比对信息,前11列为必须字段,顺序固定。其余列是可选字段。前11列如下解释:
由于SAM文件受系统保护,没有办法直接打开的。用冰刃程序的“文件”管理,找到SAM文件拷贝出来,就可以用记事本打开了,不过打开后里面的内容在部分是乱码。
由于SAM文件里存储了一些硬件的配置信息,删除后系统扰银带就会出错的,若要解读其中的内容表示什么不会很容易的。
像这样的相关资料是很难找到的,如果真想知道可以把PE系统中的破解用户密码的程序进行逆向工程,这样可能更快一些。关键是要有相缓芦当高的技术水平搏轮才行。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)