TCGA 利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。 最终完成一套完整的与所有癌症基因组改变相关的「图谱」。
TCGA临床数据有两种:
数据文件有 (HTSeq count/ FPKM/ FPKM-UQ)3种
介绍链接
生成raw read counts数据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。
RPM counts记录在 ==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列,除此之外还增加了isoforms的基因组坐标信息以及miRNA信息(前体或成熟&accession)
使用Affymetrix SNP 6.0芯片,基于TCGA level 2 数据,最终生成txt文件,包含5列(片段名称,染色体,基因组位置,结合到芯片上的探针数量,seqment_mean)
包括以下几个平台:
文件包括以下这些列:
1、DESeq2需要导入两个数据集:mycounts, colData。先说mycounts,这就是处理完的TCGA数据RNAmatrix.txt,直接读入即可。
2、colData就是对每个样本的一个情况说明。这个可以生成,也可以自己写一个保存为csv格式。我一般自己写。
3、构建矩阵
4、输出结果
获取表达矩阵,处理TCGA的count数据,1表示为行。
导入数据
加 ENTREZID列,用于富集分析(symbol转entrezid,然后inner_join)
转化空格为NA
用花花的专属TCGA包,ID进行转换
把空着的值改为NA
以病人为中心,表达矩阵按病人ID去重复
去除重复
TPM数据做单个基因的生存分析file:///C:/Users/denghuan/Desktop/The%20learning%20of%20R%20software/Practice/%E7%94%9F%E5%AD%98%E5%88%86%E6%9E%90%20survival%20analysis/6.Survival.html
stringr::str_replace_all()
str_detect(colnames(exp),"TCGA-W5-AA2R")
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)