如何快速掌握TCGA数据库

如何快速掌握TCGA数据库,第1张

参加培训班——最快速的方法。有些生物信息公司会针对高校教师和医师开生信培训班,我导师带着我上过几次,有TCGA、Oncomine和R的。缺点是价格贵,一次一天两三千,优点是上手快,而且会有后续服务,比如课上完后你在qq群里提问,一般公司技术人员都会给你解决。我放几张上完培训班后发的资料,是课上PPT转的PDF。另外再推荐一本中文教材,可以做补充用。优点是浅显易懂,缺点是不够深入且作者态度傲娇,但书还可以,《R语言与Bioconductor-生物信息学应用》,随着大数据时代的到来,各种生物类公共数据库井喷,其中就包括癌症领域熟为人知的癌症基因图谱The Cancer Genome Atlas (TCGA)数据库。TCGA由NCI牵头,作为美国攻克癌计划的一个大项目,投入了巨大的人力和物力,系统提供了癌症多组学测序和芯片数据,包括Gene expression, DNA methylation, Copy NumberVariation, Mutation等结果,同时也附有相应各测序样本的完整临床资料。TCGA为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,这为挖掘有意义的基因组变化和发现影响肿瘤起始、发展、分化、转移等生物学机制提供了海量数据基础。然而传统的基础医学和转化医学研究者缺乏信息学基础来处理大规模癌症数据,因而在面对这些极其有价值的基因组数据时,往往心有余而力不足。作为医学信息领域研究者,我们需要将信息学和统计学知识运用到癌症基因组学数据分析的研究当中,作为连接大数据与基础医学研究者之间的一个纽带,帮助研究者去更好地挖掘探索这些数据。

一个良好的开端就是分析感兴趣基因的突变和其它异常,ICGC数据门户提供了几条研究路线。输入一个基因名称,NCBI登录号,或者Ensembl基因ID,点击基因报告(Gene Report),就能在突变摘要(Mutation Summary)中找到已发现的突变和拷贝数变化,以及迄今为止,这些突变在肿瘤中出现的频率。COSMICsection就在体细胞突变列表下方,包括了点突变,少量缺失,以及插入突变等方面的数据。

另外一种方法就是在一种肿瘤中寻找所有受到影响的基因,在ICGC数据门户中,研究人员能通过点击数据搜索(Database Search)下的Genes,然后选择感兴趣的肿瘤类型,以及一些其它参数,比如分析的途径等,这样就能找到所有受到影响的基因。除此之外,TCGA数据门户中,还可以从Download Data menu上选择批量下载(Bulk Download),获取体细胞突变数据,以及其它类型数据,比如拷贝数,DNA甲基化,基因表达。

转自“ 医学统计园 ”微信公众号。

读入clinicaljson文件

计算文件长度n,在这里n为348

初始化变量

利用一个for循环由json文件中提取信息

将提取的信息做成一个dataFrame

首先说下背景,我毕论有大量涉及到生存曲线分析。针对某个我们已挖掘到白血病中的差异基因,利用了TCGA上的临床数据。

需要的数据:TCGA上的临床数据。当你下下来时会发现有一大堆。这时需要你做的就是筛选你所需要的。你需要的有:目的基因的表达量、患者生存时间、患者生存/死亡状态。这里的目的基因可以是你前期差异基因分析/通路分析/临床分析等所得到的一个或几个基因,你需要在下一步生存分析中进一步验证其预后影响。

软件:SAS、Grapdprism、SPSS、R语言都可以用。但个人感觉SAS的算法更精准,Gradprism在画图上更漂亮且易 *** 作。看你需求了。

检验算法:采用Kaplan-Meier (K-M) 生存分析法来计算生存时间及生存率,采用Log-rank检验比较生存差异,取P值小于005为有统计学意义。

具体 *** 作原理:根据目的基因的表达量,将患者分为高表达组和低表达组。这里的分组方法,可以是根据平均值,也可以是中值。我查阅了大量文献,认为中值更合理。将分组后的两组患者数据导入软件,这里的软件可以是上所述的任意一种,而数据包括了患者生存时间、患者生存/死亡状态。注:表达量只用来分组,不用来画生存分析。

以上就是关于如何快速掌握TCGA数据库全部的内容,包括:如何快速掌握TCGA数据库、如何直接查找tcga数据中某一基因在某一肿瘤中的表达、R语言提取TCGA数据库clinical.json中的临床信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10135645.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存