FASTQ文件解读

FASTQ文件解读,第1张

Illumina测序技术使用 簇生成和边合成边测序(SBS)化学技术对流动槽(flow cell)上数百万或数十亿簇(cluster)进行测序,具体簇的数目取决于测序平台。 在边合成边测序化学过程中,仪器上的实时分析(RTA)软件对每个簇的每个循环进行碱基检出和存储。 RTA以单个读取碱基(base call,或称BCL)文件的形式存储碱基检出数据。 测序完成后,必须将BCL文件中的测定的碱基转换为序列数据。 此过程称为BCL到FASTQ的转换。

FASTQ文件是一个文本文件,其中包含通过流动槽(flow cell)上质控参数的簇(cluster)的测序数据(有关簇的质控参数,请参阅本公告的“其他信息”部分)。如果样本是multiplexed,则FASTQ文件生成的第一步是demultiplexing。 demultiplexing根据簇的index序列将簇分配给样本。 demultiplexing后,将每个样本的组合序列写入FASTQ文件。 如果未对样品进行multiplex,则不会发生demultiplexing,并且对于每个流动槽每个通道(Lane)中的所有簇都分配给一个样品。

对于单端测序的运行,将为每个流动槽上每条通道的每个样品创建一个Read 1(R1)FASTQ文件。 对于双端测序的运行,将为每个流动槽上每条通道的每个样品各创建一个R1和一个Read 2(R2)FASTQ文件。 FASTQ文件是使用扩展名*.fastq.gz压缩和创建的。

FASTQ文件是什么样的?

对于每个通过质控参数的簇,一个序列被写入相应样本的R1 FASTQ文件,而对于双端测序运行,另外一个序列也被写入该样本的R2 FASTQ文件。 FASTQ文件中的每个条目包含4行:

这是R1 FASTQ文件中单个记录条目的示例:

有关FASTQ格式的更多详细信息,请参见此处。

如何查看FASTQ文件

FASTQ文件最多可以包含数百万个条目,大小可

通常比对好的bam,如果需要重新比对,需要将文件转成原始的测序文件的格式fastq。通过bedtools中的bamtofastq 能够将文件转成fastq

bedtools可以通过conda安装,可以参考我往期的教程: https://www.jianshu.com/p/e82a8d799b13

这里以常见的双端测序文件为例,通过的bam是按照染色体位置排序的,这里需要先通过samtools sort -n将bam文件改成安装reads名排序,其次通过bedtools bamtofastq将bam转成fastq。

利用NCBI数据进行分析的时候,遇到的第二个问题就是如何将SRA文件转化为常用的fastq文件。

NCBI官方提供的SRAtoolkit里面有fastq-dump,很简单的一个命令,直接转换出来就是压缩好的fastq.gz文件,但是这个命令是单线程的,遇上大量的SRA数据就非常慢了,所以后来开发了一个fasterq-dump,能够多线程的转换。

但是这个命令最大的问题是不能直接出压缩好的fastq.gz文件,对于非服务器用户很不友好,没压缩的fq文件通常十几个G,文件一多硬盘就爆炸,所以还是希望能够以压缩好的gz文件存储,通常只有原始文件的1/8左右,只有原始SRA文件的2倍左右。如果利用gzip命令,这玩意也是个单线程的,压缩起来要了亲命。所以通过寻找我发现pigz这个命令可以多线程的压缩,压缩大小和gzip是差不多的,最后我写了个简单的shell脚本,可以一次性完成这两步工作。

把两个分割线中间的命令用记事本保存为sh文件,放在服务器上就能够执行了。多线程的转换,多线程的压缩,节约不少时间,对台式机用户比较友好。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12100922.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存