由于GEO数据库和我们之前介绍的gene数据库a以及我们常用来搜索文献的pubmed都是一个机构的。使用这个数据库,我们需要做的就是就是就是提供检索式。检索式可以是简单的几个关键词,也可以是制定特殊的检索式。我们一般可以用到的进一步筛选的过程就是:在样本类型当中寻找自己想要的物种。由于GEO包括了很多不同组学的数据,如果我们有特定的检索目的的话,我们可以在aStudyaType当中来选择合适的数据类型。默认的检索结果的排序是基于检索相关性来排序的。而我们再找目标数据的时候。有时候需要看样本量,一般来说样本量越大其实也就越好的。所以我们可以改变一下检索结果的排序。
1、首先GEO数据库是个什么鬼呢?GEO数据库全称GENE EXPRESSION
OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
2、那GEO数据库有哪些检索入口呢?
最常用的有两种方式,如果你知道GSE编号可以通过网址http://www.ncbi.nlm.nih.gov/geo直接进入,具体编号介绍文件下载方法见:https://www.omicsclass.com/article/1100
另外一种就是通过NCBI主页的入口基因搜索下载。通常是不知道GEO编号,通过样品类型,实验处理,平台信息等搜索筛选想要的GEO数据:https://www.ncbi.nlm.nih.gov/,进入NCBI主页,搜索数据选择GEO DataSets,如果搜索某个基因表达量可选择GEO Profiles。
因为GEO是基因表达综合数据库,RNA是实现遗传信息在蛋白质中的表达。从GEO数据库获取GSE79973数据集,该数据集包含胃癌疾病与正常样本的表达谱数据,筛选出其中差异表达的lncRNA。
下载GSE62254和GSE15459数据集以及对应的临床数据,通过GSE62254数据集来构建一个临床预测模型,识别出与预后显著相关的lncRNA,通过GSE15459数据集对模型进行验证。
进一步的通过多因素分析来研究ACJJ分期、性别、年龄和样本的风险分数与临床预后的关系。最后通过ssGSEA来发现样本的高低风险组之间通路富集的差异情况。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)