TCGA数据库介绍_sql

肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute（NHGRI）于 2006 年联合启动的项目，目前共计研究 36 种癌症类型。

TCGA 利用大规模测序为主的基因组分析技术，通过广泛的合作，理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。最终完成一套完整的与所有癌症基因组改变相关的「图谱」。

TCGA临床数据有两种：

数据文件有 (HTSeq count/ FPKM/ FPKM-UQ)3种

介绍链接

生成raw read counts数据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。

RPM counts记录在 ==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列，除此之外还增加了isoforms的基因组坐标信息以及miRNA信息（前体或成熟&accession）

使用Affymetrix SNP 6.0芯片，基于TCGA level 2 数据，最终生成txt文件，包含5列（片段名称，染色体，基因组位置，结合到芯片上的探针数量，seqment_mean)

包括以下几个平台：

文件包括以下这些列：

1、DESeq2需要导入两个数据集：mycounts, colData。先说mycounts，这就是处理完的TCGA数据RNAmatrix.txt，直接读入即可。

2、colData就是对每个样本的一个情况说明。这个可以生成，也可以自己写一个保存为csv格式。我一般自己写。

3、构建矩阵

4、输出结果

获取表达矩阵，处理TCGA的count数据，1表示为行。

导入数据

加 ENTREZID列，用于富集分析（symbol转entrezid，然后inner_join）

转化空格为NA

用花花的专属TCGA包，ID进行转换

把空着的值改为NA

以病人为中心，表达矩阵按病人ID去重复

去除重复

TPM数据做单个基因的生存分析file:///C:/Users/denghuan/Desktop/The%20learning%20of%20R%20software/Practice/%E7%94%9F%E5%AD%98%E5%88%86%E6%9E%90%20survival%20analysis/6.Survival.html

stringr::str_replace_all()

str_detect(colnames(exp),"TCGA-W5-AA2R")

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9553742.html

TCGA数据库介绍

发表评论

评论列表（0条）