fastq 文件处理_教程

2021/03/22

结果是一个列表，包括此目录下所有的文件的全称及文件扩展名（.txt,.fasta,.gz等）

循环输出每一个文件名

若文件名格式一致，如为 sample_name.fastq.gz ,可使用正则表达式获取想要的信息

若目标目录下不是文件而是文件夹，可循环上一步获取所需要文件夹内的内容

随后可以处理 fastq.gz 文件

f'{sample}'可以填入变量，是形成一段固定格式的字符串，与 '{0}'.format(sample) 相同，但更简略一点

如 fastq.gz 文件

根据上面得到的 .fastq.gz 的绝对路径，读成字典

可以根据关键的 id 获取序列

或者构建一个字典统计一下 fastq.gz 文件中序列的数量

若是多个样本的 fastq.gz 文件

这样就可以多个样本一起统计啦

可是，这样构建的字典里面是无序的，怎样把序列按数量排个序呢？？

对于单个样本：

实际上变成了由一对李锋键值对组成的元组组成的列表

可以根据每个元组的第二位好蠢，也就是数量进行排序

排列完还是个列表

可以输出你想要的前多少个友扰陪

对于多个样本，也差不多

简直一毛一样有没有

Fastq是测序数据下机格式，其中包含测序序列(reads)的序列信息及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述，如下：

其中第一蠢盯弊行以“@”开头，随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分)；第二行是碱基序列；第三行以“+”开头，随后为Illumina 测序标识符(选择性部分)；第四行是带族对应序列的测序质量。

Illumina 测序标识符详细信息如下：

第四行中每个字符对应的ASCII值减去33，即为对应第二行碱基的测序质量值。如果测序错误率用e表示，Illumina测则蔽序平台的碱基质量值用Qphred表示，则有下列关系：

ASCII - 33 = Qphred　=　-10log10(e)

此公式可说明，质量值越大测序错误率(e)越低，准确性越高

Illumina测序技术使用簇生成和边合成边测序（SBS）化学技术对流动槽（flow cell）上数百万或数十亿簇（cluster）进行测序，具体簇的数目取决于测序平台。在边合成边测序化学过程中，仪器上的实时分析（RTA）软件对每个簇的每个循环进行碱基检出和存储。 RTA以单个读取碱基（base call，或称BCL）文件的形式存储碱基检出数据。测序完成后，必须将BCL文件中的测定的碱基转换为序列数据。此过程称为BCL到FASTQ的转换。

FASTQ文件是一个文本文件，其中包含通过流动槽（flow cell）上质控参数的簇（cluster）的测序数据（有关簇的质控参数，请参阅本公告的“其他信息”部分）。如果样本是multiplexed，则FASTQ文件生成的第一步是demultiplexing。 demultiplexing根据簇的index序列将簇分配给样本。 demultiplexing后，将每个样本的组合序列写入FASTQ文件。如果未对样品进行multiplex，则不会发生demultiplexing，并且对于每个流动槽每个通道（Lane）中的所有簇都分配给一个样品。

对于单端测序的运行，将为每个流动槽上哗绝梁每条通道的每个样品创建一个Read 1（R1）FASTQ文件。对于双端测序的运行，将为每个流动槽上每条通道的每个样品各创建一个R1和一个Read 2（R2）FASTQ文件。乱运 FASTQ文件是使用扩展名*.fastq.gz压缩和创建的。

FASTQ文件是什么样的？

对于每个通过质控参数的簇，一个序列被写入相应样本的宏则R1 FASTQ文件，而对于双端测序运行，另外一个序列也被写入该样本的R2 FASTQ文件。 FASTQ文件中的每个条目包含4行：

这是R1 FASTQ文件中单个记录条目的示例：

有关FASTQ格式的更多详细信息，请参见此处。

如何查看FASTQ文件

FASTQ文件最多可以包含数百万个条目，大小可

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12146422.html

fastq 文件处理

发表评论

评论列表（0条）