如何使用geo数据库分析基因表达与预后的关系

弗林斯 • 2023-5-5 • 工具 • 阅读 40

在NCBI的GEO数据库中，系列（series）中matrix目录下的GSExxx_series_matrixtxtgz文件，其中的数据是什么含义。是不是别人已经标准化好的数据（而且是log2处理过的），我可以用来直接求倍数然后看表达差异

GSExxx_series_matrixtxtgz数据格式和楼主的数据截图类似，差别在于列标题，楼主的列标题是GSMxxxxxxCEL,而从GEO下载的GSExxx_series_matrixtxtgz的数据，列标题是GSMxxxxxx，无“CEL”。

ID_REF GSM413894 GSM413895 GSM413896 GSM413897 GSM413898 GSM413899 GSM413900 GSM413901

AFFX-BioB-3_at 8472861 758379 7726437 7808923 8604332 860782 8343771 8628157

AFFX-BioB-5_at 865537 7696443 7996466 7719412 8770542 8652599 8404749 8911979

AFFX-BioB-M_at 8813823 7890245 8127718 8306655 9011187 891993 8566244 906862

AFFX-BioC-3_at 9633732 9024885 9136383 9120244 102995 1015661 1000954 1025113

AFFX-BioC-5_at 9756588 9118516 9137075 9544678 9945514 9793713 9544567 9861975

AFFX-BioDn-3_at 120726 1167344 1162215 119874 1216764 1197144 1181811 120963

如果是要初步的筛选，最好用至少3个数据库进行预测，然后取共有的target gene进行下一步的验证，常用的数据库有targetscan，RNA22，mirbase，PITA，microcosom等等

AUTHOR：余顺太

DATE：2021年10月1日

注：Filezilla软件的设置一定要根据下图重新设置，不然可能会一直中断

具体数据传输方法如下图所示：

FileZilla软件，将左侧相对应信息填入到FileZilla中，然后将需要上传的文件直接拉入到红星号的文件夹中。

全部传输结束之后对比文件大小，提交

等待邮件通知是否上传成功。

缺少jar包：

maxmind-db-100jar

jackson-core-251jar

jackson-databind-251jar

jackson-annotations-251jar

可以去MAVEN 库搜索下载，记住：maven工程可以看POMXML文件，找到项目的依赖包。

GEOquery 包使用指南

GEO（The NCBI Gene Expression Omnibus）是NCBI专门储存高通量测序的库。如基于芯片数据（mRNA、DNA、蛋白丰度），蛋白质质谱数据和高通量测序数据。

GEO数据主要有4种基本类型。Sample, Platform 和 Series是由作者上传的数据，dataset是由GEO官方从做和提交的数据整理出来的。

## 11 Platforms

GEO 号：GPLxxx。

芯片的组成信息，例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量检测平台信息，例如SAGE tags, peptides。

## 12 Samples

GEO 号: GSMxxx

描述单个样本信息，处理步骤、处理条件以及实验测得的结果。一个样本可能属于多个研究（Series）。

## 13 Series

GEO 号：GSExxx

涉及同一个研究的记录，包括处理过的数据、总结和分析；信息可以从GSEMatrix文件解析快速得到。

##14 Datasets

GEO 号：GDSxxx

一套经过整理的GEO 数据集。每套数据都是可以进行生物学或者统计学上比较的样本，是GEO自带工具进行数据分析和展示的基础。一个 GDS数据集来自同一个平台，数据分析和标准化都具有一致性。

getGEO 函数可以从GEO官网获取数据或者将固定格式数据解析为R格式的数据。

GEOquery 数据结构大致分为两类。第一种是GDS, GPL和GSM,他们的 *** 作和数据类型差不多；第二种是GSE，GSE数据是由GSM和GPL整合而成。

## 31 GDS, GSM 和 GPL

这些数据类组成

可以使用show()查看这些数据类。

##32 GSE类

GSE类组成：

GEO datasets与limma 数据结构MAList 和Biobase数据结构 ExpressionSet比较相似。可以相互转换：

## 41 Getting GSE Series Matrix files as an ExpressionSet

GEO Series是一套实验数据的集合，有SOFT，MINiML格式文件，以及一个 Series Matrix File(s)文本。Series Matrix File是tab-delimited text， getGEO 函数可以解析，解析结果就是ExpressionSets。

一个GSE下如果存在多个GPL测序，筛选特定的GPL数据；GSE会有多个列表 gset[[idx]]

##42 Converting GDS to an ExpressionSet

##43 Converting GDS to an MAList

ExpressionSet不包含注释信息， getGEO 可以帮助我们获取。

与ExpressionSet不同，the limma MAList 包含基因注释信息。上面的gpl包含注释信息。

MAList不仅包含数据，还包含样本信息，和注释信息。

44 Converting GSE to an ExpressionSet

GSE转换成ExpressionSet

这个GSE包含两个GPLs，GPL96 和 GPL97。

筛选使用GPL96 的GSM。

获取表达矩阵：

构造ExpressionSet

##61 Getting all Series Records for a Given Platform

英文版原文见：[Using the GEOquery Package

以上就是关于如何使用geo数据库分析基因表达与预后的关系全部的内容，包括:如何使用geo数据库分析基因表达与预后的关系、如何使用geo数据库mirna、上传测序数据到GEO数据库等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10139417.html

数据信息数据库多个如何使用

打赏

微信扫一扫

支付宝扫一扫

弗林斯一级用户组

数据库怎样把表中第一条数据调取出来

上一篇 2023-05-05

腾讯QQ 的用户数据库是怎样做加密的

下一篇 2023-05-05

发表评论

登录后才能评论

评论列表（0条）