#测序深度:一个片段测了几遍
#测序覆盖度:测序片段匹配到目标区域的百分比
测序深度:测序深度越深,每个基因组装上的reads越多
基因长度:基因越长,产生的reads越多,组装上的reads就越多
我们需要的是基因的表达量,而不是reads数量,所以需要标准化reads的数量,从而表示基因表达量。
先定义几个变量
N:匹配到目标基因的reads数量,即count(见下方)
T:匹配到基因库的reads总数量
L:基因长度
raw count (RC),即reads数量(N),主要受到测序技术、组装技术及基因长度、测序深度的影响。
Reads per million mapped reads
RPM=N/T10^6
# N/T标准化(去除)测序深度的影响
# 10^6在标准化中仅仅是为了增加数字的可读性
RPM没有排除基因长度的影响,仅适用于不需要考虑基因长度的分析,如miRNA。
Reads/Fragments per kilo base per million mapped reads
RPKM=N/(TL)(10^6/10^3)
# N/T标准化基因长度的影响
# N10^3大概与L同一个量级,增加数字可读性
FPKM与RPKM类似,但主要针对双末端转录本结果,双末端组装时是一对reads同时匹配,记两者重合片段(fragment)的count,所以大概就是除2,没太大区别。
# 如果不方便理解,先去查一下单末端与双末端测序。
RPKM/FPKM排除了基因长度的影响,适用于基因长度差异较大的目标基因库。
Transcript per million
TPM = RPKM10^6/∑(RPKM)
总结:
RPM排除了单次测序深度的影响,使数据可以在组间比较;
RPKM进一步排除了基因长度的影响,使数据可以在基因间比较;
TPM再进一步将基因表达量化成百分比,使数据在不同基础表达量的细胞间比较rpm -qa | grep
号就是你要查询的的软件包名称,准确的说是包含了你要查询的字段,像下面这样
[root@tttttt ~]# rpm -qa | grep ssh
openssh-53p1-94el6x86_64
sshpass-105-1el6x86_64
openssh-clients-53p1-94el6x86_64
openssh-server-53p1-94el6x86_64
libssh2-142-1el6x86_64
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)