差异表达基因分析软件:EBSeq

差异表达基因分析软件:EBSeq,第1张

EBSeq的输入数据是原始的read count,可以通过featureCounts、HTSeq-count等软件包获得。

在服务器上安装没有报错,但是在Windows的Rstudio中安装则会出现如下报错

修改文件 'C:/Users/cc/Documents/R/win-library/35/blockmodeling/CITATION' 的内容,其中对应报错的行有 Aleš Žiberna ——带帽子的字符,删掉或者改成别的常见字符就OK了。当然如果担心以后出类似问题,改起来琐碎,可以直接设置R的识别语言。
Note:搜索时使用关键词 INCOMPLETE_STRING ,而非最后的 invalid input found on input connection 。搜索方向决定了解决问题的效率。

标准化方法不同+检验不同=多种组合/软件,用之前需要结合自己的样本量来考虑,多参考有相似实验设计的文献,常用的方法都跑一下,自己评估下结果差异,再做定夺。(研究本来就是充满了不确定性,一切都只能用“可能性”来定义,所以,采用同样参数仍然无法完全重复出文献中的结果也是常见。)

参考资料:

随着对复杂动植物基因组认识的不断深入,越来越多的证据表明,基因组结构变异(SVs)在决定育种和农业重要性状方面发挥着重要作用。全基因组关联分析(GWAS)是性状相关基因定位的强有力工具,已被广泛的用于鉴定影响表型变异的候选基因组位点。但通常GWAS的研究主要依赖于单核苷酸变异(SNPs)的信息与表型相关联,而忽略了具有更大表型效应大小的大片段SVs。现在为大家分享几篇SV-GWAS的经典案例,为各位科研工作者的研究提供更多的思路选择和可能性探索。赶紧来看看吧!

一、PAV-GWAS揭示结构变异对大豆种子光泽的影响[1]

文章名称:Pan-Genome of Wild and Cultivated Soybeans

发表期刊:Cell

发表单位:中国科学院遗传与发育生物学研究所等

影响因子:38637

发表时间:2020年6月

1 研究背景

大豆为人类提供了主要的植物油料和蛋白资源,是重要的粮食经济作物。野生大豆和栽培大豆之间以及不同地理区域的栽培大豆之间存在广泛的遗传多样性。由于之前缺乏代表不同大豆种质材料的全新基因组资源,因此结构变异在大豆中重要农艺性状调控中发挥作用尚未被很好的开发。

2 材料方法

对来自世界大豆主产国的2898个大豆种质材料(包含收集自全球范围的103份野生大豆、1048份地方品种和1747份栽培品种)进行了深度重测序和GWAS分析。

3 研究结果

将2898份材料的重测序数据比对到图形泛基因组,鉴定了总共55,402个SVs,表明大豆种质含有丰富的结构变异多样性。种子光泽是大豆的一个重要性状,先前的研究表明,大豆疏水蛋白(HPS)的积累与种子光泽的变化有关。然而,相关基因仍不清楚。基于图形结构的基因组分型的SVs对种子光泽进行的全基因组关联研究(GWAS),确定了15号染色体上的一个重要信号,其中一个10 kb的PAV导致了一个HPS编码基因的存在和缺失。研究表明,含有和不含有这10 kb序列的大豆种子分别具有较高比例的光泽和无光泽,这表明PAV可能是控制大豆种子光泽变化的因果遗传变异之一。

本文构建了高质量的基于图形结构的泛基因组,挖掘到大量利用传统基因组不能鉴定到的大片段结构变异。经深入分析发现,一些结构变异在重要农艺性状调控中发挥重要作用,如种皮亮度、种皮颜色的驯化、缺铁失绿等。另外,该结果也为SV-GWAS分析如何推动植物基因组学和功能基因组学研究的发现提供了有力的例证。

二、SV-GWAS发现基于SNP-GWAS未发掘的玉米含油量相关的结构变异[2]

文章名称:Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement

发表期刊:Nature Genetics

发表单位:华中农业大学等

影响因子:27603

发表时间:2019年6月

1 研究背景

玉米是全球重要的粮食作物之一,它显示出丰富的遗传多样性。之前已发表的玉米基因组材料都来自于温带,研究时无法全面揭示热带玉米的遗传多样性。而热带玉米具有许多温带玉米所不具备的优良性状,如抗病虫、耐旱等。本文构建了高质量热带玉米基因组图谱,并基于结构变异进行分析,为探索玉米基因组的结构变异以及挖掘玉米新的优势农艺性状具有重大意义。

2 材料方法

基于521份不同玉米自交系品种的深度重测序数据进行SVs检测和群体多态性SV(pSV)分析。

3 研究结果

共鉴定到80,614个多态性 pSV,其中有219%的变异是传统SNP检测方法所不能检测到的,说明部分遗传多样性的来源可能并非是SNPs,而是较大的SVs。为确定新鉴定的SVs在表型形成中的效用,研究者针对含油量和脂肪酸含量性状进行了全基因组关联分析,并对SNP-GWAS和SV-GWAS的分析结果进行比较,基于SV-GWAS结果发现了一个新的位于4号染色体上的显著相关的区域,在这个区域内的位点呈连续分布,推测该区域可能与玉米的含油量性状相关。在这个候选区域内找到一个基因 Zm00015a017119 ,该基因编码烯酰-酰基载体蛋白还原酶(ENR),该酶催化脂肪酸延伸循环中的最后一个酶促步骤。结合转录组数据进行验证,结果发现ENR表达量与含油量呈正相关,统计86个主要SVs类型为B73的个体和7个主要SVs类型为SK的个体,结果表明是SVs造成玉米含油量的显著差异。

该研究基于SV-GWAS发现了新的变异候选位点,结合转录组数据,发现SVs相比于SNPs更容易引起基因表达量的变化。研究表明,结构变异是表型差异的基础,且基于SVs的GWAS分析可以挖掘基于传统SNPs的研究中未发现的重要遗传变异位点。

三、PAV-GWAS挖掘基于SNP-GWAS未发现的油菜荚果长度、种子重量和开花时间相关的结构变异[3]

文章名称:Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of  Brassica napus

发表期刊:Nature Plants

发表单位:华中农业大学等

影响因子:13256

发表时间:2020年1月

1 研究背景

甘蓝型油菜是一种具有复杂基因组的异源四倍体作物,在不同的材料和生态型中有广泛的基因组和表型变异。在对季节变化(如春化要求、抗寒性和光周期等)反应的驱动下,甘蓝型油菜已被驯化的具有各种特性,但是其巨大的表型变异背后的遗传多样性还有很多未知。

2 材料方法

通过全基因组比较分析整合8个甘蓝型油菜材料的PAVs组合,鉴定了16个巢式关联群体(NAM)亲本系的PAV基因型,并根据高密度的遗传连锁图谱将其比对到2141个重组自交系(RILs)上。

3 研究结果

通过泛基因组比较分析,共鉴定出772~1496 Mb的存在和缺失变异(PAVs),其中超过94%的基因包含大的效应突变或结构变异。为探索SVs对性状变异的贡献,基于油菜NAM群体(共包含27,216个PAVs)进行了PAV-GWAS分析。角果长度及种子重量是产量相关的重要性状,A09染色体上的峰值区域为先前报道的由传统数量性状定位和图位克隆确定的区域,但没有相关的SNP位于靶基因 BnaA9CYP78A9  的调节区或编码序列中,PAV-GWAS直接检测到了 BnaA9CYP78A9  启动子区上游39 kb的CACTA-like TE插入,被确定为角果长度和种子重量的因果变异。在8个油菜品种中,Gangan和ZS11 在 BnaA9CYP78A9  的上游有TE插入,这两个品种显示出比其他品种明显更长的角果长度和更大的种子。

开花是植物从营养生长转为生殖生长的关键过程,与产量密切相关。PAV-GWAS分析发现了直接位于开花抑制因子 BnaA02FLC  和 BnaA10FLC  内的峰值PAV,A02上的PAV峰值是 BnaA02FLC 第六外显子的hAT的插入导致,在冬季和春季环境中,具有这种824bp PAV的NAM RILs比没有它的开花更早。A10的PAV峰是 BnaA10FLC  启动子区的hAT插入导致,该位点在以前的近1000份油菜SNP-GWAS中没有报道。在春季环境中,有这种4421bp hAT插入的NAM RILs比没有的开花晚。

结果表明,PAV-GWAS直接确定了以ZS11为供体的巢式关联作图群体中角果长度、种子重量和开花时间的因果结构变异,而SNP-GWAS没有检测到这些变异,表明PAV-GWAS在确定与性状的关联方面与SNP-GWAS互补。

四、SV-GWAS揭示基因组结构变异对桃果实形状的影响[4]

文章名称:Genome structure variation analyses of peach reveal population dynamics and a 167 Mb causal inversion for fruit shape

发表期刊:Genome Biology

发表单位:北京市农林科学院等

影响因子:10806

发表时间:2021年1月

1 研究背景

桃树起源于中国,距今已有2百万年,在其8,500年的驯化过程中,其果实大小,形状,颜色,质地和风味的表型差异很大。桃已经被作为多年生果树的模式植物广泛开展遗传研究,然而,其全基因组SVs的表征及其潜在的表型影响仍是一个主要尚未开发的领域。

2 材料方法

选择主要产区的桃品种(共149份材料,产区包括华北,西北,华南,西南,日本,美洲和欧洲)进行全基因组重测序。

3 研究结果

研究者构建了高质量的SVs图谱,包含27,734个SVs,总共覆盖RYP1基因组的约1610%(~3849 Mb),表明桃基因组含有丰富的结构变异。果实形状是栽培桃中极有价值的农艺性状,使用SNP-GWAS分析得到多个与果形相关的强SNPs信号映射到“S”基因座。然而,最近的群体规模研究表明,基于SNP-GWAS所报道的基因的突变显然不足以解释某些品种的扁平果形性状,该性状的遗传基础值得进一步研究。基于SV-GWAS分析,鉴定出最重要的关联是在“S”基因座处从27,959,880 bp到29,634,101 bp的167-Mb杂合倒位,覆盖了主要SNPs,与果实扁表型共分离,所有37个扁平果种均携带该倒位的衍生等位基因,而所有99个圆形果种均携带祖先等位基因。

不可否认,基于SNP-GWAS代表了一种强大的研究策略,可用于识别植物性状的遗传变异。但仅使用SNP-GWAS,则无法鉴定出这种与扁平果相关的167-Mb杂合倒位。也就是说,对于已知由大型SVs引起的重组率降低和搭便车效应,SNP-GWAS几乎可以肯定会错过,就像该167-Mb杂合倒置的发现可以明显解释主要的农业上重要的水果形状表型。

五、小结

研究表明,尽管SVs在表型形成中作用还需要更多的研究,但是可以肯定的是,当探究表型变异背后的遗传多样性机制时,结构变异是必须要考虑的因素。上述研究也证实了SV-GWAS提供了一种有效的策略来鉴定关键的候选基因,且基于SV-GWAS比SNP-GWAS对某些候选基因的鉴定更加有效,为后续优异基因资源的发掘提供了重要参考。扒一扒近期发表的动植物群体文章,不难发现基于SV-GWAS的研究频现登陆各大高分期刊,可参见下表:

随着测序技术的不断进步,识别基因组中结构变异的程度和影响变得越来越可行,特别是三代测序技术的发展,使全基因组范围内产生准确的长读长数据变得更容易。

上述案例研究提供了利用SVs如何驱动植物科学中基本功能发现的重要方法,对未来分子辅助育种和遗传改良具有重要的指导意义。总而言之,动植物群体SV-GWAS的研究思路已经准备就绪,文章蓄势待发,风口已然来临,还在等什么,赶紧上车哟!

参考文献:

1 Liu Y, Du H, Li P, et al Pan-Genome of Wild and Cultivated Soybeans[J] Cell, 2020, 182(1):162-176

2 Yang N, Liu J, Gao Q, et al Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement[J] Nature Genetics, 2019, 51(6):1052-1059

3 Song J M, Guan Z, Hu J, et al Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of Brassica napus[J] Nature Plants, 2020, 6(1): 34-45

4 Guan J, Xu Y, Yu Y, et al Genome structure variation analyses of peach reveal population dynamics and a 167 Mb causal inversion for fruit shape[J] Genome Biology, 2021, 22(1): 13

5 Zhou H, Ma R, Gao L, et al A 17-Mb chromosomal inversion downstream of a PpOFP1 gene is responsible for flat fruit shape in peach[J] Plant Biotechnology Journal, 2021, 19(1): 192-205

6 Alseekh S, Scossa F, Fernie A R Mobile transposable elements shape plant genome diversity[J] Trends in Plant Science, 2020, 25(11): 1062-1064

7 Guo J, Cao K, Deng C, et al An integrated peach genome structural variation map uncovers genes associated with fruit traits[J] Genome Biology, 2020, 21(1): 258

8 Li X, Yang J, Shen M, et al Whole-genome resequencing of wild and domestic sheep identifies genes associated with morphological and agronomic traits[J] Nature Communications, 2020, 11(1): 2815

9 Yu Y, Fu J, Xu Y, et al Genome re-sequencing reveals the evolutionary history of peach fruit edibility[J] Nature Communications, 2018, 9(1):5404

译自 gatkbroadinstituteorg

本文介绍基因组参考用途,以及一些术语和相关注意事项。有关人类基因组参考build的更多具体信息,请参阅人类基因组参build( Human genome reference builds )。

基因组分析工具箱(Genome Analysis Toolkit,GATK)的中心法则:所有基因组分析都应该是根据一个一般的参考序列来进行的。

为什么呢?让我们看一个简化的问题。 现在我们知道下面三个句子是从一个共同的祖先演化而来的:

The quick brown f a x jumped over the lazy dog e

The quick  _  fox jump s  over the lazy dog e

The quick brown fox jump s  over the lazy  brown  dog

我们希望以一种不偏向于其中任何一个的方式来挑出它们的差异,并且在遇到新添加的突变句子时保持稳健。 因此,我们创建了一个混合体,封装了它们最共同的东西:

The quick brown fox jumped over the lazy dog e

我们可以将其用作通用参考坐标系,可以根据该坐标系绘制每个突变体的不同之处(不一定是独一无二的):

第四个词,o->a 取代; 第九个词缺失“e”

第三个词缺失; 第五个字 ed->s 替换; 第九个词加“e”

第五词 ed->s 取代; 位于第八个词之后重复了第三个词。

这显然不是一个完美的方法,它给我们的不是祖先的句子——我们怀疑这不是“dog”最初的拼写方式,我们不确定最初的时态(jumps vs jumped——但它使我们区分什么是“正常”(从某种意义上说,这是我们可以接触到的人群中的规范)和什么是分歧的。

初始参考的句子越多,抽样越具有代表性,就越适合描述我们将来遇到的变异。

这正是我们在使用参考基因组时所做的:与其尝试绘制基因组序列彼此之间差异(一旦我们涉及两个以上的序列,这会变得非常复杂),我们将它们相对于一个共同标准绘制出来。在这一点上,识别序列中的哪些变异子集是普遍观察到的,而不是样本、个体或其集合所特有的,变得更加容易处理(如果不是完全微不足道的话)。

那么我们使用谁的基因组作为共同标准呢?不用任何人的,同时希望用每个人的。在最简单的情况下,任何个体基因组都可以用作参考基因组。 然而,当参考基因组更能代表我们可能想要研究的最广泛的个体群体时,分析的质量和灵敏度就会提高。因此,基因组参考的每个片段都应具有在可用的单个基因组中最常观察到的序列。因此,由此产生的参考基因组是一种用作原型的混合体,但实际上并未在任何特定的个体基因组中观察到其序列。

请注意所有当前的标准参考基因组序列都是单倍体,这意味着它们仅代表单拷贝的每个染色体(或重叠群)。最直接的后果是,在诸如人类这样的二倍体生物中,每个常染色体都有两个副本,在杂合状态(表现出两个不同的等位基因,例如 A/T)中最常观察到的位点的标准表示的选择在很大程度上是任意的。这在多倍体生物中显然更糟,例如许多植物,包括小麦和草莓,它们的染色体拷贝数更高。虽然可以使用基于图的表示(graph-based representations)来表示参考基因组,从而将解决这个问题,但目前很少有基因组分析工具能够处理这种表示。进一步讨论请参阅 这篇文章 。

无论你使用的是模式生物还是非模式生物,都有可能有多个参考版本可用。就人类基因组而言,要选择哪个版本曾经是一个巨大的问题,尽管最新的参考基因组(GRCh38/Hg38)的出现似乎在某种程度上降低了复杂性。我们对其他生物的情况不太熟悉,但据说这是一个相当普遍的问题。

在实践中,最大的问题是,一旦你开始使用特定的参考build,就很难切换到另一个或合并源自不同build的外部资源。 我们 这里 有一个完整的文档,专门讨论在这种情况下可能出现的问题。

为了让未来的工作更轻松,你最好在准备实验设计时谨慎选择将要使用的参考build。 你应该考虑 (1) 哪些资源将是必要的,以及你正在查看的各种build哪些是可用的,(2)你的同事或潜在合作者已经使用的资源,(3) 你所在领域的人最常使用的资源。

有一大堆专门与参考基因组相关的术语;我们尝试在此处收集其中最常见的,但如果你发现任何你认为我们应该添加的内容,请在评论中告诉我们。

分析集(Analysis set) 参考基因组具有适应序列读取比对的特殊功能。 这种类型的基因组参考可能与你用于浏览基因组的参考不同。有关示例,请参阅有关 人类基因组参考build 的文档。

重叠群(contig) 是没有“物理”间隙的连续序列(在此,“N”个碱基的延伸不被视为间隙),例如染色体。也可以是不完整组装中的支架、细菌基因组中的质粒等。

Alternate contigs、alternate scaffolds  或  alternate loci 允许在对于单一表示过于复杂的区域中表示不同的单倍型。有关 ALT contigs 的目的和用法的更多讨论,请参阅 人类基因组参考build 文件。

初级组装(Primary assembly) 是指 (i) 组装的染色体,(ii) 未定位(已知属于特定染色体但顺序或方向未知)和 (iii) 未放置(染色体未知)序列的集合。它代表一个非冗余的单倍体基因组。

PAR 代表 拟常染色体区域(pseudoautosomal region) 。哺乳动物 X 和 Y 染色体中的 PAR区域允许性染色体之间的重组。因为 PAR 序列一起创建了一个二倍体或拟常染色体序列区域,所以 X 和 Y 染色体序列在基因组组装中是刻意一致的。分析集基因组进一步屏蔽了 Y 染色体 PAR 区域中的两个,以便允许将序列仅映射到 X 染色体 PAR 区域。

不同的 组装(assemblies) 会移动位点的坐标,组装很少发布。在人类基因组环境中,Hg19 和 GRCh38/hg38 代表两个不同的主要组装。 比较来自不同组装的数据需要工具来调整基因组坐标以匹配位点,有时结果并不完美。

补丁(Patches) 是针对给定组装定期发布的区域性修补。它们旨在在不破坏染色体坐标的情况下改进表示或向组装添加信息。有两种类型的补丁,固定的和新的,代表不同类型的序列改变。

     固定补丁(Fixed patches) 表示将在下一个版本中替换主要组装序列的序列。在解释数据时,固定补丁应该优先于染色体。

     新补丁(Novel patches) 代表alternate loci。在解释数据时,将新补丁视为群体序列变体。

我们建议使用 Integrative Genome Viewer (IGV) 来浏览/查看基因组序列数据。IGV 是用于查看基因组数据(包括比对)的桌面应用程序。该工具能够使用通过文件或 URL 提供的参考基因组,或者它在服务器上的众多参考基因组。服务器上的参考基因组包括GRCh38。 有关服务器上的参考基因组的信息,请参阅 此页面 。 如需最新的基因组列表,请打开 IGV 并转到 Genomes>Load Genome From Server。菜单列出了可以在主基因组下拉菜单中提供的基因组。

为什么我们特别推荐IGV? 诚然,还有其他功能齐全且非常棒的基因组浏览器。但是,我们与 IGV 的开发人员(最初是在我们楼下的Broad Institute)有着密切的关系,因此我们可以方便地继续使用它。你当然可以使用任何你喜欢的浏览器;请注意,我们在线和现场研讨会上的文档材料和教程中的所有屏幕截图都只使用了 IGV。

在基因组浏览器上查看 CRAM 比对

由于 CRAM 压缩取决于对齐参考基因组,因此使用 CRAM 文件的工具通过比较参考 contig MD5 标签值来确保正确解压缩。这些对序列中的任何变化都很敏感,例如用 Ns 来模糊化。当浏览器中加载的参考与比对中使用的参考不相交时,这可能会对在基因组浏览器中查看比对产生影响。 如果你使用的工具版本存在此问题,请务必加载原始分析集参考基因组以查看 CRAM 比对。

基因共现网络分析是一种针对多个样品进行的分析,需要同时考虑多个样品的基因表达数据,以构建基因共现网络,进而挖掘不同样品之间的基因关系和功能模块。因此,基因共现网络分析需要至少两个样品,但通常需要更多的样品才能得到更可靠、更全面的结果。具体需要的样品数量会受到多种因素的影响,包括研究目的、研究对象、数据质量等。一般来说,在进行基因共现网络分析前,需要仔细考虑样品数量和样品选取的问题,并根据实际情况进行合理的选择和设计。

首先关于同源的定义就比较多,如果以序列相似性作为唯一依据话,可以采用NCBI上的blast软件进行序列比对。用basic blast 中的nucleotide blast软件,将基因A提交给服务器,在参数设置的database中选EST(expressed sequence tags),进行blast,返回的结果中,排列越前的就是同源性越高的。
这个方法是以序列相似一定就是同源基因为基本假设的,一般而言这样做是可行的。但就同源基因本身这个概念来讲我们可以认为同源基因基本都是序列相似的,但这并不能代表序列相似就一定是同源的。

发表期刊:Nature 

发表日期:202002

影响因子:42778

癌症是全球第二大常见死因,每年超过800万人因癌症丧命。预计在未来十年,癌症发生率将增加50%以上。癌症是体细胞亚克隆自主发展和扩散类疾病的总称。癌症克隆控制多个细胞通路,打破正常细胞的生长和调控等限制,获取自主发展和扩散的特征。单个细胞通路改变不足以引发癌症。每个癌症由潜在的致病异常“池”中的多个异常通路组合而引发。

肿瘤异质性来自于达尔文进化的随机性。达尔文进化的三个先决条件:(1)群体中的特征是变化的;(2)变异从亲本遗传到子代;(3)群体为了生存进行竞争。一部分突变改变细胞表型,一部分突变使克隆获取逃逸正常生理控制的优势。提供选择优势的突变称为驱动突变,反之称为乘客突变。

选用2834个患者人全基因组测序数据(WGS),去除176个患者低质量数据,共计2658个患者的WGS数据,其中有2583个患者高质量数据。2658个患者共取2605个原发肿瘤和173个转移或复发肿瘤,正常样本平均测序深度为39×,肿瘤测序深度分别为38×和60×。研究群体包括1469男性(55%)和1189女性(45%),平均年龄56岁,覆盖38种肿瘤类型。其中,1222个患者具有RNA-seq数据。

利用以上数据分析somatic SNVs, somatic Indels, somatic CNVs, somatic SVs,体细胞逆转录事件,线粒体DNA突变、端粒长度以及germline SNV, Indel, SVs等事件。

利用3个核心变异检测流程和额外10个变异检测流程,对63对tumor-normal变异检测,估测3个核心流程的敏感度和精确度。并对其中50对进行高深度靶向测序验证。3个核心流程检测到真实变异的敏感度为80~90%,每个流程检测的95%以上变异是真实的somatic mutations。针对Indel检测,3个核心流程的敏感度是40~50%,精确度是70~95%。SV检测算法的精确度在80~95%。

对3个核心流程的变异结果合并,评估合并集合中突变的属性:Somatic SNVs敏感度为95%(90%置信区间,88~98%),精确度为95%(90%置信区间,71~99%)。Somatic Indels 检测敏感度为60%(34~72%)和精确度91%(73~96%)。合并的Somatic SVs 敏感度为90%,精确度为975%。多种方法检测变异提高了低频突变检出的准确性。

分析2583个患者数据,共检测到43,778,859个somatic SNVs,410,123个somatic 多核酸突变,2,418,247个somatic Indels,288,416个somatic SVs,19,166 体细胞逆转录事件,8,185个新线粒体突变。通过相关性分析,发现诊断年龄和体细胞突变数量相关:年龄每增长一年,增加约190个SNVs,约22个Indels。

31癌症驱动突变全景图

根据突变的性质和已知癌症相关基因,预测肿瘤的驱动基因;利用已知的启动子和增强子分析非编码驱动突变。结果发现,91%的肿瘤至少有1个驱动突变,每个肿瘤平均有46个驱动突变(癌种之间变化较大)。对于编码区点突变,每个肿瘤平均有26个驱动突变。除此之外, 13%(785/5913)的驱动点突变是非编码突变,而且1/3(237/785)突变发生在 TERT 启动子上;25%肿瘤具有非编码驱动突变。说明:非编码区驱动点突变频率较编码区低;与 TERT 启动子相比,其他启动子和增强子并不常发生驱动突变。

根据肿瘤类型,SVs和点突变致力于不同的癌症发生机制。驱动SVs常发生在乳腺癌和卵巢腺癌;驱动点突变常出现在在结肠腺癌和成熟B细胞淋巴瘤。

文章发现抑癌基因的驱动突变多为二次打击事件。例如,954个肿瘤具有 TP53 突变,736(77%)个肿瘤样本的两个等位基因均发生突变,其中96%(707/736)是等位基因突变和等位基因缺失同时发生。17%的病人在癌症相关基因上具有稀少的胚系蛋白截断体突变,54%病人由于somatic mutations导致以上基因次等位基因失活。

32没有驱动突变的PCAWG肿瘤数据分析

90%以上的PCAWG样本鉴定到驱动突变,仍有181个样本未检测到驱动突变。分析肿瘤样本未找到驱动突变的原因,有以下几点:(1)样本质量低:4/181个样本的正常对照被肿瘤DNA污染,每个对照含有超过5%的肿瘤DNA;同理,肿瘤样本中肿瘤细胞含量较低也会影响突变检出;(2)驱动突变位点覆盖度较低无法满足突变检出:6个肝细胞癌和2个胆管癌在高深度靶向测序后检测到 TERT 突变;(3)生信分析方法:35个骨髓增生性肿瘤未检测到 JAK2 V617F 突变,由于利用Panels of normals作为对照去除测序影响导致。2~5%的健康人群具有造血克隆,可能涵盖了驱动突变;(4)驱动基因检测力不足,说明某些肿瘤中存在未被发现的基因富集;(5)染色体变异:19/43肾细胞癌和18/81前列腺癌缺少驱动突变,但发生染色体异常,有可能单凭染色体扩增或缺失足以引发癌症。

33成簇突变和SVs模式

癌症中,单个灾难性事件可产生多个聚集性突变,导致基因组大量重组。主要包含:(1)染色体重排:不同染色体的DNA双链断裂修复导致重排发生;(2)Kataegis(雷雨):单链DNA局部超突变,导致聚集性核苷酸替换;(3)染色体碎裂:数十数百个DNA断裂同时发生在一个或者几个染色体,产生的碎片随机组合在一起。

467个样本(178%)发生染色体重排和平衡易位,主要发生在前列腺癌、淋巴系统恶性肿瘤和甲状腺癌。重排事件导致甲状腺癌的部分融合基因的产生,例如 RET 、 NTRK3 和 IGF2BP3 等等。

605%癌症中发生Kataegis事件,例如肺鳞癌、膀胱癌、肢端黑色素瘤和肉瘤等。Kataegis主要包含(1)由APOBEC活性导致TpC的C>N 突变;(2)聚合酶导致 T pT或Cp T 的T > N突变。817%的Kataegis事件与 APOBEC3B 表达水平相关,57%与易错聚合酶相关,以及23%事件是GpC 或 CpC的胞嘧啶脱氨导致的。Kataegis事件与SV断点相关,尤其是缺失和复杂重排事件,包括在缺失附近10-25kb内Cp T pT的T>N 突变。

Kataegis事件包含4种局部超突变类型:(1)脱靶体细胞超突变和局部Cp T pT的T>N 突变;(2)与复杂重排相关的APOBEC;(3)后随链和早期复制区域的APOBEC;(4)后两种类型混合。

587(223%)个染色体碎裂样本,主要为肉瘤、脑胶质瘤、肺鳞癌、黑色素瘤和乳腺癌样本。染色体碎裂伴随全基因组重复,相关的驱动基因为 TP53 。肉瘤和B细胞淋巴瘤患者中,女性发生染色体碎裂的频率高于男性;前列腺患者中,晚期患者具有更高频率的染色体碎裂。染色体碎裂区域包含36%驱动基因和7%拷贝数驱动。

34进化中时间聚集性突变

根据分子时钟分析每个肿瘤的进化史:主克隆发生在早期,亚克隆突变发生在后期;拷贝数扩增区域,分子时间根据突变发生在拷贝之前或者之后进行划分。染色体碎裂通常发生在主克隆,特别是在脂肪肉瘤、前列腺癌和肺鳞癌说明是癌症进化早期事件。在黑色素瘤中,染色体碎裂扩增涉及到较多的癌症相关基因,例如 CCND1 ,  TERT ,  CDKN2A ,  TP53 和 MYC 。

在扩增的染色体碎裂事件中,利用SNV的拷贝数目计算扩增发生的时间,SNV发生在扩增之前,将会有很高比例的reads携带SNVs。相反,SNV发生在拷贝数变异之后,将只有一条染色体携带SNV,具有较低的变异频率。肢端黑色素瘤的 CCND1 扩增区域具有较少的高频突变,而皮肤黑色素瘤更多突变发生在扩增之前。

35胚系突变对somatic mutations的影响

根据检测到的胚系突变分析胚系突变对体细胞突变率和模式的影响作用。利用欧洲群体中MAF>5%的胚系突变位点进行GWAS分析,发现 APOBEC3B 突变机制可以利用22q131预测,信号最强位点是rs12628403。该位点标记了常见的30kb胚系 APOBE3B 编码序列缺失和 APOBEC3B 的3’非翻译区域 APOBE3A 编码序列融合。除此,文章在22q131位置发现一个新的突变位点rs2142833,并验证其与 APOBEC3B 突变相关性。rs12628403和 rs2142833在欧洲群体中是独立遗传的,rs2142833是 APOBEC3B 的eQTL。

利用稀有突变(MAF<05%)分析欧洲群体中胚系蛋白截短体(PTVs)和体细胞DNA重排相关性。胚系BRCA2和BRCA1蛋白截短体和小于10kb的体细胞缺失和串联重复负荷相关。BRCA1蛋白截短体和模板插入具有显著相关。20/21个BRCA1相关肿瘤出现模板插入表型,且胚系突变和体细胞突变均发生在该基因上。说明 BRCA1 基因的次等位基因失活驱动模板插入SV表型。

稀有突变关联分析发现胚系MBD4蛋白截短体突变增加CpG位置的体细胞C>T突变。 MBD4 编码DNA修复基因,移除甲基化CpG上的T:G错配的胸腺嘧啶。

评估LINE调控体细胞反转座子事件,验证114个胚系LINE对体细胞反转座激活能力,包含70个人类基因组相关插入和53个连锁不平衡SNP。16个L1元件介导67%(2440/3669)的转座事件,以两种形式进行体细胞激活,称为Strombolian和Plinian;Strombolian在人群中分布频率较高,引发中小规模的体细胞L1激活;Plinian在群体中频率很低,引发严重的体细胞L1激活。

36复制的永生

癌症特征之一是逃避细胞衰老,保持端粒长度是癌症永久复制的因素之一。16%的肿瘤在 ATRX ,  DAXX 和 TERT 基因上发生突变。聚类端粒序列的12个特征得到4个肿瘤亚型,说明 ALT 和 TERT 介导的端粒变异的不同。

体细胞驱动突变在四个亚型中分布不同。C1主要富集 RB1 突变和影响 ATRX 的SV,C2主要富集 ATRX 和 DAXX 的体细胞点突变,C3样本主要发生 TERT 启动子突变。 RB 基因缺失与端粒延长相关。高频发生端粒异常机制的肿瘤主要由于组织中低复制活性。

总结

利用泛癌全基因组测序数据对驱动突变、结构变异、克隆进化以及转座子事件和端粒模式进行详细分析,绘制泛癌基因组特征和阐明引发癌症的多样性因素。

参考文献

ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium Pan-cancer analysis of whole genomes Nature 2020, 578(7793): 82-93

原文链接:>

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/13089400.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-30
下一篇 2023-05-30

发表评论

登录后才能评论

评论列表(0条)

保存