RNA-Seq数据分析——原始数据质量控制(QC)

RNA-Seq数据分析——原始数据质量控制(QC),第1张

获得转录组数据(.fastq文件)后的第一步就是对原始数据的质量控制。

质量控制的目的是全面查看原始数据的质量,内容包括碱基质量评估、GC含量检验、N碱基数量评估、TCGA碱基分布、k-mer数量检验等。

可以于检验fastq文件质量的软件有很多,例如FastQC、fastp、multiQC等。本文主要介绍应用最多的FastQC。

FastQC是一款基于Java的软件,须在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估(Quality Control),其官网地址为: Babraham Bioinformatics 。

FastQC可以使用conda进行安装。在linux环境下运行命令 conda install fastqc 即可,运行结果如下图。

运行命令 fastqc -h 可检验其是否成功安装,运行结果如下图。

使用 fastqc -o #输出结果全路径 #数据存储全路径/*reads_R1.fq 命令运行案例数据

运行后可获得如下结果。

报告第一部分既是对质量检测结果的基本信息统计,如上图所示。其中包括:

上图显示了检测fastq文件的整体碱基质量分数统计。

上图展示了每个tail的测序情况。

对每条序列(reads)的测序质量统计。

上图显示了A T C G在每个位置的平均分布情况。

上图展示了序列平均GC分布。

上图N碱基含量分布

上图展示了检验文件中序列的长度统计。

接下来就是基于QC结果对数据进行质量控制,我们应用cutadapt来做。

你确定你的fastqc已经正确安装好了?如果安装好了,可以在命令窗口下输入 fastqc 命令,然后回车,跳出图形界面,然后把测序文件放进去就可以了。如果没有d出图形界面,你可以看看界面的相关提示,然后修正错误,才能运行的。

楼主如果对Linux系统感兴趣,可以百度《Linux就该这么学》,不错的一本Linux入门教程。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/9013580.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-23
下一篇 2023-04-23

发表评论

登录后才能评论

评论列表(0条)

保存