kegg数据库和geo数据库区别_工具

GEO筛选差异，KOBAS注释分析。

GEO 数据库来筛选差异表达基因，KOBAS进行KEGG注释分析

利用基因在不同物种之间的保守性，任何基因组的数据都可以映射到这些数据库中去。

ncbigeo数据库怎么使用CDS(CodingSequence)特征域被认为是DNA生成蛋白质的翻译指令,利用CDS特征域构建外显子-内含子数据库(Exon-IntronDatabase,EID)是研究内含子起源、进化和功能的重要手段

标准化的方法就是Counts值：

对给定的基因组参考区域，计算比对上的read数，又称为raw count（RC）。

aw count作为原始的read计数矩阵是一个绝对值，而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值，去除基因长度、测序深度的影响，我们采用分析的。

标准化的三种方法得出的三种值：

RPM (Reads per million mapped reads)：RPM方法：10^6标准化了测序深度的影响，但没有考虑转录本的长度的影响。

RPKM/FPKM方法：

103标准化了基因长度的影响，106标准化了测序深度的影响。TCGA的数据分析多采用这种结果。

TPM (Transcript per million)：TPM的计算方法也同RPKM/FPKM类似，TPM可以看作是RPKM/FPKM值的百分比。

具体判断方法：

表达量是否需要重新标准化。

可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断。

是否需要log2:根据数据值的大小。

如果表达丰度的数值在50以内，通常是经过log2转化的。如果数字在几百几千，则是未经转化的。

GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库。利用这个数据库，我们可以检索到其他一些人上传的一些实验测序数据。

由于GEO数据库和我们之前介绍的gene数据库a以及我们常用来搜索文献的pubmed都是一个机构的。使用这个数据库，我们需要做的就是就是就是提供检索式。检索式可以是简单的几个关键词，也可以是制定特殊的检索式。我们一般可以用到的进一步筛选的过程就是：在样本类型当中寻找自己想要的物种。由于GEO包括了很多不同组学的数据，如果我们有特定的检索目的的话，我们可以在aStudyaType当中来选择合适的数据类型。默认的检索结果的排序是基于检索相关性来排序的。而我们再找目标数据的时候。有时候需要看样本量，一般来说样本量越大其实也就越好的。所以我们可以改变一下检索结果的排序。

你好，本公司是专门做生物信息数据处理的。

差异表达基因的筛选（阀值）以及后面的生物信息分析都可以做的。

差异表达基因筛选步骤：选择GEO数据——下载芯片数据——差异分析（方法有很多：SAM法，R包处理，T-test检验等）——选择想要的阈值（Fold change >4)

以上就是关于kegg数据库和geo数据库区别全部的内容，包括:kegg数据库和geo数据库区别、怎样利用geo数据库中的临床数据、geo数据库数据如何标准化等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9515592.html

kegg数据库和geo数据库区别

发表评论

评论列表（0条）