质量控制的目的是全面查看原始数据的质量,内容包括碱基质量评估、GC含量检验、N碱基数量评估、TCGA碱基分布、k-mer数量检验等。
可以于检验fastq文件质量的软件有很多,例如FastQC、fastp、multiQC等。本文主要介绍应用最多的FastQC。
FastQC是一款基于Java的软件,须在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估(Quality Control),其官网地址为: Babraham Bioinformatics 。
FastQC可以使用conda进行安装。在linux环境下运行命令 conda install fastqc 即可,运行结果如下图。
运行命令 fastqc -h 可检验其是否成功安装,运行结果如下图。
使用 fastqc -o #输出结果全路径 #数据存储全路径/*reads_R1.fq 命令运行案例数据
运行后可获得如下结果。
报告第一部分既是对质量检测结果的基本信息统计,如上图所示。其中包括:
上图显示了检测fastq文件的整体碱基质量分数统计。
上图展示了每个tail的测序情况。
对每条序列(reads)的测序质量统计。
上图显示了A T C G在每个位置的平均分布情况。
上图展示了序列平均GC分布。
上图N碱基含量分布
上图展示了检验文件中序列的长度统计。
接下来就是基于QC结果对数据进行质量控制,我们应用cutadapt来做。
你确定你的fastqc已经正确安装好了?如果安装好了,可以在命令窗口下输入 fastqc 命令,然后回车,跳出图形界面,然后把测序文件放进去就可以了。如果没有d出图形界面,你可以看看界面的相关提示,然后修正错误,才能运行的。楼主如果对Linux系统感兴趣,可以百度《Linux就该这么学》,不错的一本Linux入门教程。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)