在NCBI的GEO数据库中,系列(series)中matrix目录下的GSExxx_series_matrixtxtgz文件,其中的数据是什么含义。是不是别人已经标准化好的数据(而且是log2处理过的),我可以用来直接求倍数然后看表达差异
GSExxx_series_matrixtxtgz数据格式和楼主的数据截图类似,差别在于列标题,楼主的列标题是GSMxxxxxxCEL,而从GEO下载的GSExxx_series_matrixtxtgz的数据,列标题是GSMxxxxxx,无“CEL”。
ID_REF GSM413894 GSM413895 GSM413896 GSM413897 GSM413898 GSM413899 GSM413900 GSM413901
AFFX-BioB-3_at 8472861 758379 7726437 7808923 8604332 860782 8343771 8628157
AFFX-BioB-5_at 865537 7696443 7996466 7719412 8770542 8652599 8404749 8911979
AFFX-BioB-M_at 8813823 7890245 8127718 8306655 9011187 891993 8566244 906862
AFFX-BioC-3_at 9633732 9024885 9136383 9120244 102995 1015661 1000954 1025113
AFFX-BioC-5_at 9756588 9118516 9137075 9544678 9945514 9793713 9544567 9861975
AFFX-BioDn-3_at 120726 1167344 1162215 119874 1216764 1197144 1181811 120963
如果是要初步的筛选,最好用至少3个数据库进行预测,然后取共有的target gene进行下一步的验证,常用的数据库有targetscan,RNA22,mirbase,PITA,microcosom等等
AUTHOR:余顺太
DATE:2021年10月1日
注:Filezilla软件的设置一定要根据下图重新设置,不然可能会一直中断
具体数据传输方法如下图所示:
FileZilla软件,将左侧相对应信息填入到FileZilla中,然后将需要上传的文件直接拉入到红星号的文件夹中。
全部传输结束之后对比文件大小,提交
等待邮件通知是否上传成功。
缺少jar包:
maxmind-db-100jar
jackson-core-251jar
jackson-databind-251jar
jackson-annotations-251jar
可以去MAVEN 库 搜索下载,记住:maven工程可以看POMXML文件,找到项目的依赖包。
GEOquery 包使用指南
GEO(The NCBI Gene Expression Omnibus)是NCBI专门储存高通量测序的库。如基于芯片数据(mRNA、DNA、蛋白丰度),蛋白质质谱数据和高通量测序数据。
GEO数据主要有4种基本类型。Sample, Platform 和 Series是由作者上传的数据,dataset是由GEO官方从做和提交的数据整理出来的。
## 11 Platforms
GEO 号:GPLxxx。
芯片的组成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量检测平台信息,例如SAGE tags, peptides。
## 12 Samples
GEO 号: GSMxxx
描述单个样本信息,处理步骤、处理条件以及实验测得的结果。一个样本可能属于多个研究(Series)。
## 13 Series
GEO 号:GSExxx
涉及同一个研究的记录,包括处理过的数据、总结和分析;信息可以从GSEMatrix文件解析快速得到。
##14 Datasets
GEO 号:GDSxxx
一套经过整理的GEO 数据集。每套数据都是可以进行生物学或者统计学上比较的样本,是GEO自带工具进行数据分析和展示的基础。一个 GDS数据集来自同一个平台,数据分析和标准化都具有一致性。
getGEO 函数可以从GEO官网获取数据或者将固定格式数据解析为R格式的数据。
GEOquery 数据结构大致分为两类。第一种是GDS, GPL和GSM,他们的 *** 作和数据类型差不多;第二种是GSE,GSE数据是由GSM和GPL整合而成。
## 31 GDS, GSM 和 GPL
这些数据类组成
可以使用show()查看这些数据类。
##32 GSE类
GSE类组成:
GEO datasets与limma 数据结构MAList 和Biobase数据结构 ExpressionSet比较相似。可以相互转换:
## 41 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套实验数据的集合,有SOFT,MINiML格式文件,以及一个 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函数可以解析,解析结果就是ExpressionSets。
一个GSE下如果存在多个GPL测序,筛选特定的GPL数据;GSE会有多个列表 gset[[idx]]
##42 Converting GDS to an ExpressionSet
##43 Converting GDS to an MAList
ExpressionSet不包含注释信息, getGEO 可以帮助我们获取。
与ExpressionSet不同,the limma MAList 包含基因注释信息。上面的gpl包含注释信息。
MAList不仅包含数据,还包含样本信息,和注释信息。
44 Converting GSE to an ExpressionSet
GSE转换成ExpressionSet
这个GSE包含两个GPLs,GPL96 和 GPL97。
筛选使用GPL96 的GSM。
获取表达矩阵:
构造ExpressionSet
##61 Getting all Series Records for a Given Platform
英文版原文见:[Using the GEOquery Package
以上就是关于如何使用geo数据库分析基因表达与预后的关系全部的内容,包括:如何使用geo数据库分析基因表达与预后的关系、如何使用geo数据库mirna、上传测序数据到GEO数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)