GEO中的Series Matrix File(s)通常是经过了标准化和对数转换的数据,但是不是所有的都是
可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断
如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。
芯片数据标准化:
对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)
aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的
RPM (Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
RPKM/FPKM方法:10 3标准化了基因长度的影响,10 6标准化了测序深度的影响。TCGA的数据分析多采用这种结果
TPM (Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。TPM实际上改进了RPKM/FPKM方法在跨样品间定量的不准确性。TPM的使用范围与RPKM/FPKM相同。
具体还可参考生信技能树老师此文
RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同: >
答案就在 TCGA barcode ,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的bar code ,有174个样本类似于这个:
TCGA-06-0681-11A-41R-A36H-07
TCGA-06-0649-01B-01R-1849-01
第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A 和 B 我也不知道啥意思。由于TCGA barcode 字段宽度是严格的。因此用substr就可提取
names=colnames(RNAseq_dat)
a=asnumeric(substr(names,14,15))
table(a)
可以看见数据中有5个是正常组织样本
----------------------
Xena 网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。
TCGA数据分析系列(一) (qqcom)
TCGA中数据类型主要有以下几种
mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量
microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量
Clinical:病人的一般情况、诊治情况、生存情况、肿瘤分期等随访信息
Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值
Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化
Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量
Methylation:甲基化芯片测得的DNA甲基化数据
Project:所有TCGA样本名均以这个开头
TSS: Tissue source site,组织来源编码
详见组织来源编码
Participant:参与者编号
Sample:其中编号01~09表示肿瘤,10~19表示正常对照,最常见的是01和11
Vial:在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; B表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用B的样本数据
Portion:同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
Analyte:分析的分子类型,对应关系如下所示
Plate:在一系列96孔板中的顺序,值大表示制板越晚
Center:测序或鉴定中心编码
以上就是关于GEO/TCGA数据是否需要标准化的问题全部的内容,包括:GEO/TCGA数据是否需要标准化的问题、TCGA数据库中含有的癌症名称,简写和中文名称、tcga数据库样本哪些是肿瘤哪些是正常等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)