FASTQ文件是一个文本文件,其中包含通过流动槽(flow cell)上质控参数的簇(cluster)的测序数据(有关簇的质控参数,请参阅本公告的“其他信息”部分)。如果样本是multiplexed,则FASTQ文件生成的第一步是demultiplexing。 demultiplexing根据簇的index序列将簇分配给样本。 demultiplexing后,将每个样本的组合序列写入FASTQ文件。 如果未对样品进行multiplex,则不会发生demultiplexing,并且对于每个流动槽每个通道(Lane)中的所有簇都分配给一个样品。
对于单端测序的运行,将为每个流动槽上每条通道的每个样品创建一个Read 1(R1)FASTQ文件。 对于双端测序的运行,将为每个流动槽上每条通道的每个样品各创建一个R1和一个Read 2(R2)FASTQ文件。 FASTQ文件是使用扩展名*.fastq.gz压缩和创建的。
FASTQ文件是什么样的?
对于每个通过质控参数的簇,一个序列被写入相应样本的R1 FASTQ文件,而对于双端测序运行,另外一个序列也被写入该样本的R2 FASTQ文件。 FASTQ文件中的每个条目包含4行:
这是R1 FASTQ文件中单个记录条目的示例:
有关FASTQ格式的更多详细信息,请参见此处。
如何查看FASTQ文件
FASTQ文件最多可以包含数百万个条目,大小可
通常比对好的bam,如果需要重新比对,需要将文件转成原始的测序文件的格式fastq。通过bedtools中的bamtofastq 能够将文件转成fastq
bedtools可以通过conda安装,可以参考我往期的教程: https://www.jianshu.com/p/e82a8d799b13
这里以常见的双端测序文件为例,通过的bam是按照染色体位置排序的,这里需要先通过samtools sort -n将bam文件改成安装reads名排序,其次通过bedtools bamtofastq将bam转成fastq。
利用NCBI数据进行分析的时候,遇到的第二个问题就是如何将SRA文件转化为常用的fastq文件。
NCBI官方提供的SRAtoolkit里面有fastq-dump,很简单的一个命令,直接转换出来就是压缩好的fastq.gz文件,但是这个命令是单线程的,遇上大量的SRA数据就非常慢了,所以后来开发了一个fasterq-dump,能够多线程的转换。
但是这个命令最大的问题是不能直接出压缩好的fastq.gz文件,对于非服务器用户很不友好,没压缩的fq文件通常十几个G,文件一多硬盘就爆炸,所以还是希望能够以压缩好的gz文件存储,通常只有原始文件的1/8左右,只有原始SRA文件的2倍左右。如果利用gzip命令,这玩意也是个单线程的,压缩起来要了亲命。所以通过寻找我发现pigz这个命令可以多线程的压缩,压缩大小和gzip是差不多的,最后我写了个简单的shell脚本,可以一次性完成这两步工作。
把两个分割线中间的命令用记事本保存为sh文件,放在服务器上就能够执行了。多线程的转换,多线程的压缩,节约不少时间,对台式机用户比较友好。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)