TCGA数据库介绍

TCGA数据库介绍,第1张

肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,目前共计研究 36 种癌症类型。

TCGA 利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。 最终完成一套完整的与所有癌症基因组改变相关的「图谱」。

TCGA临床数据有两种:

数据文件有 (HTSeq count/ FPKM/ FPKM-UQ)3种

介绍链接

生成raw read counts数据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。

RPM counts记录在 ==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列,除此之外还增加了isoforms的基因组坐标信息以及miRNA信息(前体或成熟&accession)

使用Affymetrix SNP 6.0芯片,基于TCGA level 2 数据,最终生成txt文件,包含5列(片段名称,染色体,基因组位置,结合到芯片上的探针数量,seqment_mean)

包括以下几个平台:

文件包括以下这些列:

2013-01-11 06:34

TCGA原始数据下载方法

1, 安装GeneTorrent-3.3.4-Ubuntu11.x86_64.tar.gz

2, 安装cgquery-2.1.3.tar.gz

3, 进入https://browser.cghub.ucsc.edu

4, 选择生成manifest.xml或者用cgquiry生成xml

5, 向NIH购买credential

6, cgquery "xml_text=\"LIBRARY_STRATEGY>RNA-Seq\"&disease_abbr=LUAD&state=live -o myquery.xml

7, gtdownload -c /path/to/mykey.pem -d /path/to/myquery.xml -v -C /path/to/GeneTorrent/ -p /path/to/SaveData/ 

Ok,现在你就得到TCGA海量的原始测序文件了. 注意如果你之前add something into the cart, you should remove them.


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9953096.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存