FASTQ格式文件中每个read由四行描述,如下:
其中第一蠢盯弊行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);第四行是带族对应序列的测序质量。
Illumina 测序标识符详细信息如下:
第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测则蔽序平台的碱基质量值用Qphred表示,则有下列关系:
ASCII - 33 = Qphred = -10log10(e)
此公式可说明,质量值越大测序错误率(e)越低,准确性越高
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
FASTQ文件中每个序列通常有四行:
例如:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
++
!'' (((( +))%%%++)(%%%%).1 -+ ''))**55CCF>>>>>>CCCCCCC65
质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。盯笑其质量得分与错误概率的对应关系见下表:
Phred quality scores are logarithmically linked to error probabilities
Phred quality scores Q are defined as a property which is logarithmically related to the base-calling error probabilities P.
除了Phred质量得分换算标准,还有就是Solexa标准:
Relationship between Q and p using the Sanger (red) and Solexa (black) equations (described above). The vertical dotted line indicates p = 0.05, or equivalently, Q ≈ 13.
对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种轮则吵方案:
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS.....................................................
..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................
...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......................
.................................JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ......................
LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL....................................................
!"#$%&'()*+,-./0123456789:<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~
没有特别的规定,通常使用.fq, .fastq, .txt等
FASTQ格式的序列一般都包含有四行,第一行由@开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。第二行是序列。第三行由'+'开始,后面也可以跟着序列的描述信息。第四行是第二行序列的质量评价(quality values,注:应该是测序的质量评价),字符数跟第二行的腊侍序列是相等的。
FASTQ格式例子:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
++
!'' (((( +))%%%++)(%%%%).1 -+ ''))**55CCF>>>>>>CCCCCCC65
例如在NCBI看到的FASTQ格式如下:
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
FASTQ格式与Fasta格式、GenBank等格式的相互转换
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)