小陈医生——GEO芯片平台与R包的对应

小陈医生——GEO芯片平台与R包的对应,第1张

本文中内容来自bilibili小陈医生想躺平

大家快去关注他!

后面记得加.db

|gpl|bioc_package|

|GPL15380|GGHumanMethCancerPanelv1|

GPL8490IlluminaHumanMethylation27k

GPL13534IlluminaHumanMethylation450k

GPL2898adme16cod

GPL71ag

GPL198ath1121501

GPL2112bovine

GPL3979canine

GPL3738canine2

GPL200celegans

GPL3213chicken

GPL72drosgenome1

GPL1322drosophila2

GPL199ecoli2

GPL4191h10kcod

GPL2891h20kcod

GPL74hcg110

GPL201hgfocus

GPL96hgu133a

GPL571hgu133a2

GPL97hgu133b

GPL570hgu133plus2

GPL13667hgu219

GPL91hgu95av2

GPL8300hgu95av2

GPL92hgu95b

GPL93hgu95c

GPL94hgu95d

GPL95hgu95e

GPL5689hgug4100a

GPL887hgug4110b

GPL886hgug4111a

GPL1708hgug4112a

GPL17897hthgu133a

GPL15396hthgu133b

GPL98hu35ksuba

GPL99hu35ksubb

GPL100hu35ksubc

GPL101hu35ksubd

GPL80hu6800

GPL6244hugene10sttranscriptcluster

GPL11532hugene11sttranscriptcluster

GPL6097illuminaHumanv1

GPL6102illuminaHumanv2

GPL6947illuminaHumanv3

GPL10558illuminaHumanv4

GPL32mgu74a

GPL81mgu74av2

GPL33mgu74b

GPL82mgu74bv2

GPL34mgu74c

GPL83mgu74cv2

GPL4032moe430a

GPL339moe430b

GPL340mouse4302

GPL1261mouse430a2

GPL75mu11ksuba

GPL76mu11ksubb

GPL77mu19ksuba

GPL78mu19ksubb

GPL79mu19ksubc

GPL341rae230a

GPL342rae230b

GPL1355rat2302

GPL85rgu34a

GPL86rgu34b

GPL87rgu34c

GPL88rnu34

GPL89rtu34

GPL1352u133x3p

GPL1318xenopuslaevis

GPL2529yeast2

GPL90ygs98

GPL1319zebrafish

校正批次效应 这篇说可以用combat来进行批次校正

校正批次效应 这篇说limma和combat都可以

ComBat or removebatcheffects via limma package 这里说最好不要用combat进行批次校正,应该选择limma包的removebatcheffects()

好的,那我用limma,然而新的问题又出现了:

是先组间校正还是先批次校正?

这篇好像可以回答

芯片数据的标准化方法

惊觉自己好像弄混了RNA-seq和芯片的normalization

DNA微阵列(基因芯片)简介

芯片校正原理

首先按照果子老师的帖子进行批次校正,校正后聚类,因为之前上课做组间校正用了boxplot,也好奇批次校正后有什么区别

暂时理解:

不知道怎么搞啊

GEOquery 包使用指南

GEO(The NCBI Gene Expression Omnibus)是NCBI专门储存高通量测序的库。如基于芯片数据(mRNA、DNA、蛋白丰度),蛋白质质谱数据和高通量测序数据。

GEO数据主要有4种基本类型。Sample, Platform 和 Series是由作者上传的数据,dataset是由GEO官方从做和提交的数据整理出来的。

## 1.1 Platforms

GEO 号:GPLxxx。

芯片的组成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量检测平台信息,例如SAGE tags, peptides。

## 1.2 Samples

GEO 号: GSMxxx

描述单个样本信息,处理步骤、处理条件以及实验测得的结果。一个样本可能属于多个研究(Series)。

## 1.3 Series

GEO 号:GSExxx

涉及同一个研究的记录,包括处理过的数据、总结和分析;信息可以从GSEMatrix文件解析快速得到。

##1.4 Datasets

GEO 号:GDSxxx

一套经过整理的GEO 数据集。每套数据都是可以进行生物学或者统计学上比较的样本,是GEO自带工具进行数据分析和展示的基础。一个 GDS数据集来自同一个平台,数据分析和标准化都具有一致性。

getGEO 函数可以从GEO官网获取数据或者将固定格式数据解析为R格式的数据。

GEOquery 数据结构大致分为两类。第一种是GDS, GPL和GSM,他们的 *** 作和数据类型差不多;第二种是GSE,GSE数据是由GSM和GPL整合而成。

## 3.1 GDS, GSM 和 GPL

这些数据类组成

可以使用show()查看这些数据类。

##3.2 GSE类

GSE类组成:

GEO datasets与limma 数据结构MAList 和Biobase数据结构 ExpressionSet比较相似。可以相互转换:

## 4.1 Getting GSE Series Matrix files as an ExpressionSet

GEO Series是一套实验数据的集合,有SOFT,MINiML格式文件,以及一个 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函数可以解析,解析结果就是ExpressionSets。

一个GSE下如果存在多个GPL测序,筛选特定的GPL数据;GSE会有多个列表 gset[[idx]]

##4.2 Converting GDS to an ExpressionSet

##4.3 Converting GDS to an MAList

ExpressionSet不包含注释信息, getGEO 可以帮助我们获取。

与ExpressionSet不同,the limma MAList 包含基因注释信息。上面的gpl包含注释信息。

MAList不仅包含数据,还包含样本信息,和注释信息。

4.4 Converting GSE to an ExpressionSet

GSE转换成ExpressionSet

这个GSE包含两个GPLs,GPL96 和 GPL97。

筛选使用GPL96 的GSM。

获取表达矩阵:

构造ExpressionSet

##6.1 Getting all Series Records for a Given Platform

英文版原文见:[Using the GEOquery Package


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/8642325.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-19
下一篇 2023-04-19

发表评论

登录后才能评论

评论列表(0条)

保存