FASTQ文件解读

FASTQ文件解读,第1张

Illumina测序技术使用 簇生成和边合成边测序(SBS)化学技术对流动槽(flow cell)上数百万或数十亿簇(cluster)进行测序,具体簇的数目取决于测序平台。 在边合成边测序化学过程中,仪器上的实时分析(RTA)软件对每个簇的每个循环进行碱基检出和存储。 RTA以单个读取碱基(base call,或称BCL)文件的形式存储碱基检出数据。 测序完成后,必须将BCL文件中的测定的碱基转换为序列数据。 此过程称为BCL到FASTQ的转换。

FASTQ文件是一个文本文件,其中包含通过流动槽(flow cell)上质控参数的簇(cluster)的测序数据(有关簇的质控参数,请参阅本公告的“其他信息”部分)。如果样本是multiplexed,则FASTQ文件生成的第一步是demultiplexing。 demultiplexing根据簇的index序列将簇分配给样本。 demultiplexing后,将每个样本的组合序列写入FASTQ文件。 如果未对样品进行multiplex,则不会发生demultiplexing,并且对于每个流动槽每个通道(Lane)中的所有簇都分配给一个样品。

对于单端测序的运行,将为每个流动槽上哗绝梁每条通道的每个样品创建一个Read 1(R1)FASTQ文件。 对于双端测序的运行,将为每个流动槽上每条通道的每个样品各创建一个R1和一个Read 2(R2)FASTQ文件。乱运 FASTQ文件是使用扩展名*.fastq.gz压缩和创建的。

FASTQ文件是什么样的?

对于每个通过质控参数的簇,一个序列被写入相应样本的宏则R1 FASTQ文件,而对于双端测序运行,另外一个序列也被写入该样本的R2 FASTQ文件。 FASTQ文件中的每个条目包含4行:

这是R1 FASTQ文件中单个记录条目的示例:

有关FASTQ格式的更多详细信息,请参见此处。

如何查看FASTQ文件

FASTQ文件最多可以包含数百万个条目,大小可

Fastq是测序数据下机格式,其中包含测序序列(reads)的序列信息及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述,如下:

其中第一蠢盯弊行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);第四行是带族对应序列的测序质量。

Illumina 测序标识符详细信息如下:

第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测则蔽序平台的碱基质量值用Qphred表示,则有下列关系:

ASCII - 33 = Qphred = -10log10(e)

此公式可说明,质量值越大测序错误率(e)越低,准确性越高


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12194841.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存