fastq 文件处理

fastq 文件处理,第1张

2021/03/22

结果是一个列表,包括此目录下所有的文件的全称 及 文件扩展名(.txt,.fasta,.gz等)

循环输出每一个文件名

若文件名格式一致,如为 sample_name.fastq.gz ,可使用 正则表达式 获取想要的信息

若目标目录 下不是文件而是文件夹,可循环上一步获取所需要文件夹内的内容

随后可以处理 fastq.gz 文件

f'{sample}'可以填入变量,是形成一段固定格式的字符串,与 '{0}'.format(sample) 相同,但更简略一点

如 fastq.gz 文件

根据上面得到的 .fastq.gz 的绝对路径,读成字典

可以根据关键的 id 获取序列

或者 构建一个字典 统计一下 fastq.gz 文件中 序列的 数量

若是多个样本的 fastq.gz 文件

这样就可以多个样本一起统计啦

可是,这样构建的字典里面是无序的,怎样把序列按 数量 排个序呢??

对于单个样本:

实际上变成了 由 一对李锋键值对 组成的元组 组成的 列表

可以根据 每个 元组的 第二位好蠢,也就是 数量进行 排序

排列完还是个列表

可以输出你想要的前多少个友扰陪

对于多个样本,也差不多

简直一毛一样有没有

Fastq是测序数据下机格式,其中包含测序序列(reads)的序列信息及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述,如下:

其中第一蠢盯弊行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);第四行是带族对应序列的测序质量。

Illumina 测序标识符详细信息如下:

第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测则蔽序平台的碱基质量值用Qphred表示,则有下列关系:

ASCII - 33 = Qphred = -10log10(e)

此公式可说明,质量值越大测序错误率(e)越低,准确性越高

Illumina测序技术使用 簇生成和边合成边测序(SBS)化学技术对流动槽(flow cell)上数百万或数十亿簇(cluster)进行测序,具体簇的数目取决于测序平台。 在边合成边测序化学过程中,仪器上的实时分析(RTA)软件对每个簇的每个循环进行碱基检出和存储。 RTA以单个读取碱基(base call,或称BCL)文件的形式存储碱基检出数据。 测序完成后,必须将BCL文件中的测定的碱基转换为序列数据。 此过程称为BCL到FASTQ的转换。

FASTQ文件是一个文本文件,其中包含通过流动槽(flow cell)上质控参数的簇(cluster)的测序数据(有关簇的质控参数,请参阅本公告的“其他信息”部分)。如果样本是multiplexed,则FASTQ文件生成的第一步是demultiplexing。 demultiplexing根据簇的index序列将簇分配给样本。 demultiplexing后,将每个样本的组合序列写入FASTQ文件。 如果未对样品进行multiplex,则不会发生demultiplexing,并且对于每个流动槽每个通道(Lane)中的所有簇都分配给一个样品。

对于单端测序的运行,将为每个流动槽上哗绝梁每条通道的每个样品创建一个Read 1(R1)FASTQ文件。 对于双端测序的运行,将为每个流动槽上每条通道的每个样品各创建一个R1和一个Read 2(R2)FASTQ文件。乱运 FASTQ文件是使用扩展名*.fastq.gz压缩和创建的。

FASTQ文件是什么样的?

对于每个通过质控参数的簇,一个序列被写入相应样本的宏则R1 FASTQ文件,而对于双端测序运行,另外一个序列也被写入该样本的R2 FASTQ文件。 FASTQ文件中的每个条目包含4行:

这是R1 FASTQ文件中单个记录条目的示例:

有关FASTQ格式的更多详细信息,请参见此处。

如何查看FASTQ文件

FASTQ文件最多可以包含数百万个条目,大小可


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12146422.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存