【点】count、RPM、RPKM、FPKM、TPM

【点】count、RPM、RPKM、FPKM、TPM,第1张

标准化的主要目的是去除测序数据的技术偏差:测序深度基因长度

#测序深度:一个片段测了几遍

#测序覆盖度:测序片段匹配到目标区域的百分比

测序深度:测序深度越深,每个基因组装上的reads越多

基因长度:基因越长,产生的reads越多,组装上的reads就越多

我们需要的是基因的表达量,而不是reads数量,所以需要标准化reads的数量,从而表示基因表达量。

先定义几个变量

N:匹配到目标基因的reads数量,即count(见下方)

T:匹配到基因库的reads总数量

L:基因长度

raw count (RC),即reads数量(N),主要受到测序技术、组装技术及基因长度、测序深度的影响。

Reads per million mapped reads

RPM=N/T10^6

# N/T标准化(去除)测序深度的影响

# 10^6在标准化中仅仅是为了增加数字的可读性

RPM没有排除基因长度的影响,仅适用于不需要考虑基因长度的分析,如miRNA。

Reads/Fragments per kilo base per million mapped reads

RPKM=N/(TL)(10^6/10^3)

# N/T标准化基因长度的影响

# N10^3大概与L同一个量级,增加数字可读性

FPKM与RPKM类似,但主要针对双末端转录本结果,双末端组装时是一对reads同时匹配,记两者重合片段(fragment)的count,所以大概就是除2,没太大区别。

# 如果不方便理解,先去查一下单末端与双末端测序。

RPKM/FPKM排除了基因长度的影响,适用于基因长度差异较大的目标基因库。

Transcript per million

TPM = RPKM10^6/∑(RPKM)

总结:
RPM排除了单次测序深度的影响,使数据可以在组间比较;

RPKM进一步排除了基因长度的影响,使数据可以在基因间比较;

TPM再进一步将基因表达量化成百分比,使数据在不同基础表达量的细胞间比较

rpm -qa | grep
号就是你要查询的的软件包名称,准确的说是包含了你要查询的字段,像下面这样
[root@tttttt ~]# rpm -qa | grep ssh
openssh-53p1-94el6x86_64
sshpass-105-1el6x86_64
openssh-clients-53p1-94el6x86_64
openssh-server-53p1-94el6x86_64
libssh2-142-1el6x86_64


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13435088.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-05
下一篇 2023-08-05

发表评论

登录后才能评论

评论列表(0条)

保存