FASTQ文件解读_教程

Illumina测序技术使用簇生成和边合成边测序（SBS）化学技术对流动槽（flow cell）上数百万或数十亿簇（cluster）进行测序，具体簇的数目取决于测序平台。在边合成边测序化学过程中，仪器上的实时分析（RTA）软件对每个簇的每个循环进行碱基检出和存储。 RTA以单个读取碱基（base call，或称BCL）文件的形式存储碱基检出数据。测序完成后，必须将BCL文件中的测定的碱基转换为序列数据。此过程称为BCL到FASTQ的转换。

FASTQ文件是一个文本文件，其中包含通过流动槽（flow cell）上质控参数的簇（cluster）的测序数据（有关簇的质控参数，请参阅本公告的“其他信息”部分）。如果样本是multiplexed，则FASTQ文件生成的第一步是demultiplexing。 demultiplexing根据簇的index序列将簇分配给样本。 demultiplexing后，将每个样本的组合序列写入FASTQ文件。如果未对样品进行multiplex，则不会发生demultiplexing，并且对于每个流动槽每个通道（Lane）中的所有簇都分配给一个样品。

对于单端测序的运行，将为每个流动槽上哗绝梁每条通道的每个样品创建一个Read 1（R1）FASTQ文件。对于双端测序的运行，将为每个流动槽上每条通道的每个样品各创建一个R1和一个Read 2（R2）FASTQ文件。乱运 FASTQ文件是使用扩展名*.fastq.gz压缩和创建的。

FASTQ文件是什么样的？

对于每个通过质控参数的簇，一个序列被写入相应样本的宏则R1 FASTQ文件，而对于双端测序运行，另外一个序列也被写入该样本的R2 FASTQ文件。 FASTQ文件中的每个条目包含4行：

这是R1 FASTQ文件中单个记录条目的示例：

有关FASTQ格式的更多详细信息，请参见此处。

如何查看FASTQ文件

FASTQ文件最多可以包含数百万个条目，大小可

Fastq是测序数据下机格式，其中包含测序序列(reads)的序列信息及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述，如下：

其中第一蠢盯弊行以“@”开头，随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分)；第二行是碱基序列；第三行以“+”开头，随后为Illumina 测序标识符(选择性部分)；第四行是带族对应序列的测序质量。

Illumina 测序标识符详细信息如下：

第四行中每个字符对应的ASCII值减去33，即为对应第二行碱基的测序质量值。如果测序错误率用e表示，Illumina测则蔽序平台的碱基质量值用Qphred表示，则有下列关系：

ASCII - 33 = Qphred　=　-10log10(e)

此公式可说明，质量值越大测序错误率(e)越低，准确性越高

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12194841.html

FASTQ文件解读

发表评论

评论列表（0条）