标准化的方法就是Counts值:
对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)。
aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的。
标准化的三种方法得出的三种值:
RPM (Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
RPKM/FPKM方法:
103标准化了基因长度的影响,106标准化了测序深度的影响。TCGA的数据分析多采用这种结果。
TPM (Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。
具体判断方法:
表达量是否需要重新标准化。
可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断。
是否需要log2:根据数据值的大小。
如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。
前几天一个小伙伴问:怎么查看一个基因和某一个通路之间的相关性。这里就简单的提供一个可能的解决办法,供有相同需求的小伙伴参考。
这里我们就假设我们想要查看ACE2和Cell Cycle信号通路之间有没有关系。对于这样的目的,我们第一步肯定是要查询两者在之前的研究当中是否有关系。
1 确定之前的研究结果
对于之前研究结果的确定的话,我们可以通过genecards来查询。genecards当中总结了这个基因应该参与哪些经典的通路。在genecards里面汇总了KEGG等多个通路数据库当中的信息。所以在这里,我们基本上能清楚这个基因主要是参与哪些基因。

经过查询,我们发现基于这个基因本身的功能,它和Cell Cycle信号通路是没有关系的。
2 确定基因和信号通路内的基因的关系
经过上面的查询,我们发现这个基因并不参与细胞周期信号通路的调控。那这个基因不参与这个通路并不能代表这个基因和通路内的基因没有关系。因此,我们查看查看这个基因和通路内的基因是否存在关系。那么首先第一步,就是需要知道通路内都有哪些基因。
21 查询通路内的基因
我们可以通过KEGG等通路数据库来查询某一个通路内的基因都有哪些。这里我们推荐另外一个通路查询数据库: PathCards(>
1、筛选PTC中潜在的circRNA,GEO数据库中查找甲状腺乳头状癌相关的数据集,最终找到GSE93522。通过GEO2R在线差异分析工具进行差异分析,此处组别的设置为:(正常vs良性);(正常vs恶性)。在挑选候选circRNA分子时,只挑选在(正常vs恶性)中的差异分子,排除在(正常vs良性)中上调或者下调的circRNA。最终找到13个上调和1个下调的PTC发生和进展相关的circRNA分子。随后,我们通过circBase数据库找到这14个circRNA分子的亲本基因以及在基因组中的座位。为了绘制circRNA圈图,我们在CSCD数据库中查找这14个circRNA,最终找到11个circRNA,并用其中的数据绘制圈图。
2、预测和分析PTC中与潜在circRNA分子结合的miRNA,circRNA分子发挥作用存在三种比较常见的机制:作为miRNA的海绵;与RBP结合;翻译为短肽或者蛋白质。从绘制的圈图看,这11个miRNA均存在MRE元件,可能可以与相应的miRNA相互作用。因此,我们使用CSCD和CRI数据库来预测相应的结合miRNA,并用Cytoscape软件构建相应的circRNA-miRNA网络图。随后,通过使用TCGA数据库中的数据,分析上述miRNA在甲状腺乳头状癌中的表达和预后价值。3、预测和分析PTC中上述miRNA下游的靶基因,通过上述的表达分析和预后分析,符合筛选要求的只有miR-605-5p和miR-876-3p两个miRNA。接着,我们使用综合性靶基因预测数据库miRNet,预测这两个miRNA下游的靶基因。通过蛋白互作网络分析,我们构建靶基因PPI网络,并结合CytoHubba中的算法(Cytoscape中的插件),最终筛选出20个hub基因。同时,使用STRING数据库,我们对预测出的靶基因进行GO和KEGG富集分析。
4、构建PTC中潜在的信号通路:hsa_circ_0088494-miR-876-3p-CTNNB1/CCND1,还是通过Cytoscape,我们构建miRNA-hub基因网。使用starBase数据库,我们对miRNA-hubgene关系对作表达相关性分析,从中筛选呈显著负相关的关系对(3个关系对符合)。最后,对三个关系对中的hub基因作表达分析,发现只有CTNNB1和CCND1在甲状腺乳头状癌中显著高表达,符合要求。
在step1中,我们获得了TCGA中OSCC 的32个病人的T-N配对样本和对应的临床信息,并将其组成了一个名为my_Load的ChAMP对象。
做后续差异分析之前,需要对信号值矩阵进行归一化。这一步骤消耗计算资源较多,配置不够可能会跑很久或者会中断。
删除缺失值样本后,还剩58个(29对)样本。
图中看出三个样本异常,删掉它们和它们的配对样本。
根据top1000sd的热图和相关性热图,会发现三个样本是异常的,因此又剔除3对,剩下26对(52个)样本,用于下一步的差异分析。我试了一下这三个样本不删除的话,后面做差异甲基化位点的热图也是聚类不成功的,删掉会好些。
生信分析论文写法如下:
这次我们来讲解的这边文献是 2019-10-12 发表的 OTT 杂志上的一篇生信加少量实验验证的文章。实话实说,目前对于生信最最最基本的,如果没有实验验证还是不好发文章的。所以一般都会加一些实验验证的。
这个文章的主要流程是个这样的:这里我们就基于文童的材料方法来说一下具体的内容:公共数据获取:当中关于公共数据获取部分提到了这些东西。使用了 GEO 数据库来进行候选数据筛选。
这 GEO 里面找到了三个芯片,其中描述了这三个芯片的平台。差异表达分析:作者使用了 GEO2R 来进行数据的筛选。富集分析:接着作者对差异表达的基因进行了富集分析,其中包括 GO 分析和 KEGG 分析。
作者使用的富集分析的软件是 DAVID,这个软件我们也吐槽过说,更新不及时,是很好用,所以推荐是 WebSestalt 富集分析软件,或者 clusterprofiler。蛋白相互作用分析:5TCGA 数据库验证再往下作者做的其实是 TCGA 的数据库验证,但是在材料方法里面没写。我们可以在结果当中具体的过程。
对于肿瘤研究,现在如果只是用 GEO 数据集分析,不用 TCGA 再看一下的话,都觉得不好意思,所以一般的肿瘤研究可能都会用到 TCGA 的验证的。其目的也就类似于多加了一个数据集来增加结果准确性。但是对于 TCGA 有些肿瘤正常样本很少。分析的结果可能偏差更大。文章使用的 GEPIA 的数据库。这个数据库对于查询 TCGA 表达结果还是很好用的,简单上手。
核心基因甲基化相关分析:在核心基因选择之后,利用了 TCGA 的甲基化数据MEXPRESS 来查看基因的田基化水平有没有变化。由于版本的更新。现在的这个数据库的 20 版本的结果会比之前的更加详细一些。
以上就是关于geo数据库数据如何标准化全部的内容,包括:geo数据库数据如何标准化、基因,蛋白与信号通路的关系、怎样用CSCD预测circRNA的下游miRNA等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)