如何使用geo数据库分析基因表达与预后的关系

如何使用geo数据库分析基因表达与预后的关系,第1张

在NCBI的GEO数据库中,系列(series)中matrix目录下的GSExxx_series_matrixtxtgz文件,其中的数据是什么含义。是不是别人已经标准化好的数据(而且是log2处理过的),我可以用来直接求倍数然后看表达差异

GSExxx_series_matrixtxtgz数据格式和楼主的数据截图类似,差别在于列标题,楼主的列标题是GSMxxxxxxCEL,而从GEO下载的GSExxx_series_matrixtxtgz的数据,列标题是GSMxxxxxx,无“CEL”。

ID_REF GSM413894 GSM413895 GSM413896 GSM413897 GSM413898 GSM413899 GSM413900 GSM413901

AFFX-BioB-3_at 8472861 758379 7726437 7808923 8604332 860782 8343771 8628157

AFFX-BioB-5_at 865537 7696443 7996466 7719412 8770542 8652599 8404749 8911979

AFFX-BioB-M_at 8813823 7890245 8127718 8306655 9011187 891993 8566244 906862

AFFX-BioC-3_at 9633732 9024885 9136383 9120244 102995 1015661 1000954 1025113

AFFX-BioC-5_at 9756588 9118516 9137075 9544678 9945514 9793713 9544567 9861975

AFFX-BioDn-3_at 120726 1167344 1162215 119874 1216764 1197144 1181811 120963

如果是要初步的筛选,最好用至少3个数据库进行预测,然后取共有的target gene进行下一步的验证,常用的数据库有targetscan,RNA22,mirbase,PITA,microcosom等等

AUTHOR:余顺太

DATE:2021年10月1日

注:Filezilla软件的设置一定要根据下图重新设置,不然可能会一直中断

具体数据传输方法如下图所示:

FileZilla软件,将左侧相对应信息填入到FileZilla中,然后将需要上传的文件直接拉入到红星号的文件夹中。

全部传输结束之后对比文件大小,提交

等待邮件通知是否上传成功。

缺少jar包:

maxmind-db-100jar

jackson-core-251jar

jackson-databind-251jar

jackson-annotations-251jar

可以去MAVEN 库 搜索下载,记住:maven工程可以看POMXML文件,找到项目的依赖包。

GEOquery 包使用指南

GEO(The NCBI Gene Expression Omnibus)是NCBI专门储存高通量测序的库。如基于芯片数据(mRNA、DNA、蛋白丰度),蛋白质质谱数据和高通量测序数据。

GEO数据主要有4种基本类型。Sample, Platform 和 Series是由作者上传的数据,dataset是由GEO官方从做和提交的数据整理出来的。

## 11 Platforms

GEO 号:GPLxxx。

芯片的组成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量检测平台信息,例如SAGE tags, peptides。

## 12 Samples

GEO 号: GSMxxx

描述单个样本信息,处理步骤、处理条件以及实验测得的结果。一个样本可能属于多个研究(Series)。

## 13 Series

GEO 号:GSExxx

涉及同一个研究的记录,包括处理过的数据、总结和分析;信息可以从GSEMatrix文件解析快速得到。

##14 Datasets

GEO 号:GDSxxx

一套经过整理的GEO 数据集。每套数据都是可以进行生物学或者统计学上比较的样本,是GEO自带工具进行数据分析和展示的基础。一个 GDS数据集来自同一个平台,数据分析和标准化都具有一致性。

getGEO 函数可以从GEO官网获取数据或者将固定格式数据解析为R格式的数据。

GEOquery 数据结构大致分为两类。第一种是GDS, GPL和GSM,他们的 *** 作和数据类型差不多;第二种是GSE,GSE数据是由GSM和GPL整合而成。

## 31 GDS, GSM 和 GPL

这些数据类组成

可以使用show()查看这些数据类。

##32 GSE类

GSE类组成:

GEO datasets与limma 数据结构MAList 和Biobase数据结构 ExpressionSet比较相似。可以相互转换:

## 41 Getting GSE Series Matrix files as an ExpressionSet

GEO Series是一套实验数据的集合,有SOFT,MINiML格式文件,以及一个 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函数可以解析,解析结果就是ExpressionSets。

一个GSE下如果存在多个GPL测序,筛选特定的GPL数据;GSE会有多个列表 gset[[idx]]

##42 Converting GDS to an ExpressionSet

##43 Converting GDS to an MAList

ExpressionSet不包含注释信息, getGEO 可以帮助我们获取。

与ExpressionSet不同,the limma MAList 包含基因注释信息。上面的gpl包含注释信息。

MAList不仅包含数据,还包含样本信息,和注释信息。

44 Converting GSE to an ExpressionSet

GSE转换成ExpressionSet

这个GSE包含两个GPLs,GPL96 和 GPL97。

筛选使用GPL96 的GSM。

获取表达矩阵:

构造ExpressionSet

##61 Getting all Series Records for a Given Platform

英文版原文见:[Using the GEOquery Package

以上就是关于如何使用geo数据库分析基因表达与预后的关系全部的内容,包括:如何使用geo数据库分析基因表达与预后的关系、如何使用geo数据库mirna、上传测序数据到GEO数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10139417.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存