如何快速掌握TCGA数据库?

如何快速掌握TCGA数据库?,第1张

参加培训班——最快速的方法。有些生物信息公司会针对高校教师和医师开生信培训班,我导师带着我上过几次,有TCGA、Oncomine和R的。缺点是价格贵,一次一天两三千,优点是上手快,而且会有后续服务,比如课上完后你在qq群里提问,一般公司技术人员都会给你解决。我放几张上完培训班后发的资料,是课上PPT转的PDF。另外再推荐一本中文教材,可以做补充用。优点是浅显易懂,缺点是不够深入且作者态度傲娇,但书还可以,《R语言与Bioconductor-生物信息学应用》,随着大数据时代的到来,各种生物类公共数据库井喷,其中就包括癌症领域熟为人知的癌症基因图谱The Cancer Genome Atlas (TCGA)数据库。TCGA由NCI牵头,作为美国攻克癌计划的一个大项目,投入了巨大的人力和物力,系统提供了癌症多组学测序和芯片数据,包括Gene expression, DNA methylation, Copy NumberVariation, Mutation等结果,同时也附有相应各测序样本的完整临床资料。TCGA为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,这为挖掘有意义的基因组变化和发现影响肿瘤起始、发展、分化、转移等生物学机制提供了海量数据基础。然而传统的基础医学和转化医学研究者缺乏信息学基础来处理大规模癌症数据,因而在面对这些极其有价值的基因组数据时,往往心有余而力不足。作为医学信息领域研究者,我们需要将信息学和统计学知识运用到癌症基因组学数据分析的研究当中,作为连接大数据与基础医学研究者之间的一个纽带,帮助研究者去更好地挖掘探索这些数据。

肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,目前共计研究 36 种癌症类型。

TCGA 利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。 最终完成一套完整的与所有癌症基因组改变相关的「图谱」。

TCGA临床数据有两种:

数据文件有 (HTSeq count/ FPKM/ FPKM-UQ)3种

介绍链接

生成raw read counts数据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。

RPM counts记录在 ==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列,除此之外还增加了isoforms的基因组坐标信息以及miRNA信息(前体或成熟&accession)

使用Affymetrix SNP 6.0芯片,基于TCGA level 2 数据,最终生成txt文件,包含5列(片段名称,染色体,基因组位置,结合到芯片上的探针数量,seqment_mean)

包括以下几个平台:

文件包括以下这些列:


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10025256.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-04
下一篇 2023-05-04

发表评论

登录后才能评论

评论列表(0条)

保存