TCGA_甲基化

TCGA_甲基化,第1张

甲基化芯片

CpG位点 (英语:CpG sites,或称为 CG位点 ),我理解的cg就是cg位点

是指DNA的某个区域,其上的 碱基 序列以 胞嘧啶 接着 鸟嘌呤 出现。“CpG”是“—C—磷酸—G—”的缩写 ,指 磷酸二酯键 连接了胞嘧啶和鸟嘌呤,其中C位于5'端而G位于3'端。

在CpG位点中的胞嘧啶可以被 甲基化 为 5-甲基胞嘧啶 。在 哺乳动物 中,基因内CpG位点的甲基化会改变此基因的表达,对这一表达调控的研究是 表观遗传学 的重要组成部分。涉及添加甲基基团的 酶 称为 DNA甲基转移酶 。

在哺乳动物中,70%到80%的CpG位点的胞嘧啶是甲基化的

未甲基化的CpG位点可以被免疫系统的 浆细胞样树突状细胞 、 单核细胞 、 NK细胞 和 B细胞 上的 TLR9 (Toll样受体9)识别,来检测体内的微生物感染。

CpG岛 是一个富含CpG位点的区域,但客观精确描述所谓“富含”的定义尚不明确。通常对于CpG岛的正式定义为:一个长度至少为200bp的片段,其GC含量高于50%,且“观察期望比”(observed-to-expexted)高于60%。

注:观察期望比:即CpG位点的观察值(片段实际含有的CpG位点数目)和“期待值”的比值。“期待值”通常有两种算法:(CG)/LS [4] 或((C+G)/2)^2/LS [5] 。其中,C、G代表胞嘧啶和鸟嘌呤的数目;LS代表片段长度(length of sequence)。

很多哺乳动物基因组中的CpG岛和基因的起始位点相联系 [6] 。因此,CpG岛的存在对于基因的预测和解释具有帮助作用。

在哺乳动物基因组中,CpG岛的序列长度通常为300-3000bp,在约40%的基因的 启动子 附近都有发现 [7] 。在人基因组中则有约70%的基因 启动子 有高CpG含量。如前文提及,CpG位点的实际存在率比随机概率的结果要低得多 [5] 。

2002年的某研究阐述了CpG岛的预测规则,使用这种规则可以排除一些高GC含量的基因组序列,如 Alu重复序列 。基于对人21和22号染色体的完全测序研究成果,长度大于500bp、GC含量高于55%、CpG位点“观察期望比”高于65%的DNA序列更有可能是“真正的”CpG岛 [8] 。

CpG岛以至少达到60%的理论CpG位点含量(可达到4-6%)为特征,而基因组中平均CpG含量只有约1%(CG抑制)。和在基因 编码区 中的CpG位点不同,在基因正常表达时,位于基因启动子区中的CpG位点往往不会被 甲基化 ;这种现象表明启动子序列中的CpG位点的 甲基化 很可能导致基因表达被抑制。DNA甲基化和组蛋白修饰是 基因铭印 的核心过程 [9] 。大多数组织间或正常样本和癌症样本间的甲基化差异发生在CpG岛附近(CpG island shores)而非CpG岛内部 [10] 。

一种CpG岛形成的假说图解:通过未被甲基化,从而在漫长的进化史上保留下来

在脊椎动物中,CpG岛往往位于基因转录起始位点附近,尤其是 持家基因 。CpG位点有被甲基化的倾向,借助这种甲基化可以分辨新合成的DNA链和母链,这在DNA序列复制后的最终校对环节起重要作用。甲基化的胞嘧啶容易脱氨转变成胸腺嘧啶,导致T/G错误配对。 胸腺嘧啶DNA糖苷酶 (TDG)是人类用于修复TG错配的酶。但由于CpG位点的稀少性,TDG在理论上没有足够高的效率来消除这些快速发生的突变。通常认为CpG岛存在的原因是因受如下选择压力导致的:需要相对更高的CpG含量、更低的甲基化水平或是调控基因需要。最近也有研究称大多数的CpG岛是由非选择压力形成的 [11] 。

Case列显示的是该文件里数据来自于多少cases。比如569,说明这个文件整合了所有569个cases的genotyping数据,有些数字为1的,说明这个文件里只有一个case的数据。

对于RNAseq后续的分析,如果要用软件比如limma,edgeR比较表达差异的基因,就用counts数据。如果你想自己做t-test,下载counts数据自己做normalization再进行比较也行,或者下载已经做过normalization的RPKM/RPKM-UQ直接比较也行

癌旁的数据也包含在这些cases里了,下载metadata就能看到每个sample的信息,你会发现有些是来自solid tissue normal,这些都是癌旁的数据

数据库名称:Oncomine数据库。

基因表达差异分析(通过检索基因表达谱差异,挖掘具有研究价值的靶分子,检索特定研究靶分子,分析其在肿瘤中的表达情况),多基因共表达分析,Oncomine和TCGA相比的优势就是,它除了数据,还提供了一些简洁易 *** 作的分析工具,如差异表达分析、共表达分析等,分析后可以直接出图用在文章里。另外它还整合了TCGA和GEO的部分数据。

tcga工作组发的文章。

The Cancer Genome Atlas (TCGA, 数据库。TCGA数据源大部分都是公开的。

目前来能够从TCGA数据库中提取数据的处理工具有cBioPortal ),ICGC( 和GenePattern(

以上就是关于TCGA_甲基化全部的内容,包括:TCGA_甲基化、请教关于TCGA数据的问题、pan-cancer的基因表达在哪个数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/10197919.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存