大家快去关注他!
后面记得加.db
|gpl|bioc_package|
|GPL15380|GGHumanMethCancerPanelv1|
GPL8490IlluminaHumanMethylation27k
GPL13534IlluminaHumanMethylation450k
GPL2898adme16cod
GPL71ag
GPL198ath1121501
GPL2112bovine
GPL3979canine
GPL3738canine2
GPL200celegans
GPL3213chicken
GPL72drosgenome1
GPL1322drosophila2
GPL199ecoli2
GPL4191h10kcod
GPL2891h20kcod
GPL74hcg110
GPL201hgfocus
GPL96hgu133a
GPL571hgu133a2
GPL97hgu133b
GPL570hgu133plus2
GPL13667hgu219
GPL91hgu95av2
GPL8300hgu95av2
GPL92hgu95b
GPL93hgu95c
GPL94hgu95d
GPL95hgu95e
GPL5689hgug4100a
GPL887hgug4110b
GPL886hgug4111a
GPL1708hgug4112a
GPL17897hthgu133a
GPL15396hthgu133b
GPL98hu35ksuba
GPL99hu35ksubb
GPL100hu35ksubc
GPL101hu35ksubd
GPL80hu6800
GPL6244hugene10sttranscriptcluster
GPL11532hugene11sttranscriptcluster
GPL6097illuminaHumanv1
GPL6102illuminaHumanv2
GPL6947illuminaHumanv3
GPL10558illuminaHumanv4
GPL32mgu74a
GPL81mgu74av2
GPL33mgu74b
GPL82mgu74bv2
GPL34mgu74c
GPL83mgu74cv2
GPL4032moe430a
GPL339moe430b
GPL340mouse4302
GPL1261mouse430a2
GPL75mu11ksuba
GPL76mu11ksubb
GPL77mu19ksuba
GPL78mu19ksubb
GPL79mu19ksubc
GPL341rae230a
GPL342rae230b
GPL1355rat2302
GPL85rgu34a
GPL86rgu34b
GPL87rgu34c
GPL88rnu34
GPL89rtu34
GPL1352u133x3p
GPL1318xenopuslaevis
GPL2529yeast2
GPL90ygs98
GPL1319zebrafish
校正批次效应 这篇说可以用combat来进行批次校正校正批次效应 这篇说limma和combat都可以
ComBat or removebatcheffects via limma package 这里说最好不要用combat进行批次校正,应该选择limma包的removebatcheffects()
好的,那我用limma,然而新的问题又出现了:
是先组间校正还是先批次校正?
这篇好像可以回答
芯片数据的标准化方法
惊觉自己好像弄混了RNA-seq和芯片的normalization
DNA微阵列(基因芯片)简介
芯片校正原理
首先按照果子老师的帖子进行批次校正,校正后聚类,因为之前上课做组间校正用了boxplot,也好奇批次校正后有什么区别
暂时理解:
不知道怎么搞啊
GEOquery 包使用指南
GEO(The NCBI Gene Expression Omnibus)是NCBI专门储存高通量测序的库。如基于芯片数据(mRNA、DNA、蛋白丰度),蛋白质质谱数据和高通量测序数据。
GEO数据主要有4种基本类型。Sample, Platform 和 Series是由作者上传的数据,dataset是由GEO官方从做和提交的数据整理出来的。
## 1.1 Platforms
GEO 号:GPLxxx。
芯片的组成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量检测平台信息,例如SAGE tags, peptides。
## 1.2 Samples
GEO 号: GSMxxx
描述单个样本信息,处理步骤、处理条件以及实验测得的结果。一个样本可能属于多个研究(Series)。
## 1.3 Series
GEO 号:GSExxx
涉及同一个研究的记录,包括处理过的数据、总结和分析;信息可以从GSEMatrix文件解析快速得到。
##1.4 Datasets
GEO 号:GDSxxx
一套经过整理的GEO 数据集。每套数据都是可以进行生物学或者统计学上比较的样本,是GEO自带工具进行数据分析和展示的基础。一个 GDS数据集来自同一个平台,数据分析和标准化都具有一致性。
getGEO 函数可以从GEO官网获取数据或者将固定格式数据解析为R格式的数据。
GEOquery 数据结构大致分为两类。第一种是GDS, GPL和GSM,他们的 *** 作和数据类型差不多;第二种是GSE,GSE数据是由GSM和GPL整合而成。
## 3.1 GDS, GSM 和 GPL
这些数据类组成
可以使用show()查看这些数据类。
##3.2 GSE类
GSE类组成:
GEO datasets与limma 数据结构MAList 和Biobase数据结构 ExpressionSet比较相似。可以相互转换:
## 4.1 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套实验数据的集合,有SOFT,MINiML格式文件,以及一个 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函数可以解析,解析结果就是ExpressionSets。
一个GSE下如果存在多个GPL测序,筛选特定的GPL数据;GSE会有多个列表 gset[[idx]]
##4.2 Converting GDS to an ExpressionSet
##4.3 Converting GDS to an MAList
ExpressionSet不包含注释信息, getGEO 可以帮助我们获取。
与ExpressionSet不同,the limma MAList 包含基因注释信息。上面的gpl包含注释信息。
MAList不仅包含数据,还包含样本信息,和注释信息。
4.4 Converting GSE to an ExpressionSet
GSE转换成ExpressionSet
这个GSE包含两个GPLs,GPL96 和 GPL97。
筛选使用GPL96 的GSM。
获取表达矩阵:
构造ExpressionSet
##6.1 Getting all Series Records for a Given Platform
英文版原文见:[Using the GEOquery Package
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)