3.4 GWAS:遗传力计算

3.4 GWAS:遗传力计算,第1张

遗传力又称遗传率,指遗传方差在总方差(表型方差)中所占的比值,可以作为杂种后代进行选择的一个指标。遗传力分为单株遗传力、家系遗传力、小区遗传力、个体遗传力。动物中一般用个体遗传力,植物中一般用家系遗传力。

遗传力介绍详细介绍见邓飞老师博客 >

我们说的混合线性模型主要是由固定效应和随机效应所构成的,固定效应是我们主要研究的影响因素,而随机效应是潜在的,影响固定效应的因素。

对于混合线性模型来说,随机效应对固定效应的影响有两种:

一种是:

随机效应通过影响固定效应的截距,从而产生对固定效应的影响,我们把这个称为层次影响

第三种是:

这里参考了某大佬写的 ,GWAS利用的原理既是混合线性模型,如果是加型效应:

我们先看下不考虑随机效应的:

那么上图就构成了一元回归里面的数据点

我们的任务就是,找到合适的a,b使得:

最小,所以根据最小二乘法,对每一个回归系数求偏导,得到正规方程组,求解即可。

考虑随机效应,那么模型就变成了:

αx为固定效应项,zβ为随机效应项,β为设计矩阵,z为随机效应的变量

那么我们设计好矩阵,即哪一个表型受随机因素的影响:

根据最小二乘法对每一个回归系数求偏导,得到正规方程组,求解α,β系数矩阵即可

根据《Population structure in genetic studies: Confounding factors and mixed models》提到的建模方式

如果SNP没发生突变, Xjk取下面的式子,对应strain A,B

如果SNP发生一种碱基的突变, Xjk取下面的式子,对应strain D,E

如果两个SNP发生两种碱基的突变, Xjk取下面的式子对应strain C

事实上这一步的主要目的还是把因子型变量转换为数值型变量,方便线性建模

回顾下模型:

e为随机因素

比方说目前有一个高血压的SNP的数据:

每一条序列可以看作是一个品种(处理),每一个品种(序列,处理)对应着不同的血压值。

那么以SNP为决策变量,不同的血压值为响应变量建立线性模型,当模型回归系数不为0,那么说明该SNP位点与血压这个性状有关联

这里有两个基本假设:第一个假设是H0假设,该假设也被称为null hypothesis,它认为SNP和性状没有关联,也即是说,性状 y 等于总体平均与环境因素的加和。

第二个假设是H1假设,该假设认为SNP和性状存在关系,也就是说当存在某个SNP的时候,某个性状或某个疾病会倾向于发生在该个体身上,β是指该SNP对性状影响的大小,也就是说, β越大,该SNP对性状的影响越大

显然left SNP对性状的影响更明显

为了让模型效果更好,作者引入了 u ,作为非模型因素

参考:

全基因组关联分析(GWAS)的计算原理

《Population structure in genetic studies: Confounding factors and mixed models》

David课件

>

TASSEL是最早出现的用于动植物关联分析的软件,还可以对进化模式以及连锁不平衡进行评估,功能非常强大,要说缺点,可能就是真的有点慢。

表型数据处理在下面这篇帖子中有介绍,这里使用BLUE值进行关联分析。

32 GWAS:最佳线性无偏估计量——BLUE值计算(多年单点有重复) - (jianshucom)

Tassel的安装在亲缘关系计算中有提到:

8GWAS:亲缘关系——TASSEL&GCTA - (jianshucom)

关联分析所用到的vcf文件是在上一步亲缘关系中,进行排序后的文件

将群体结构分析中生成的Q文件,增加一列对应的sample名,一行亚群名。

5 GWAS:群体结构——Admixture - (jianshucom)

亲缘关系得到的kinship文件进行整理,第一行为sample数,第一列为sample名,中间为矩阵,下图以GCTA结果为例。

8 GWAS:亲缘关系——TASSEL&GCTA - (jianshucom)

-fork1 vcf文件 Trootvcf

-fork2 表型数据文件 traittxt

-fork3 群体结构Q文件 Qtxt

混合线性模型中要加入系谱矩阵,即亲缘关系K矩阵。

结果文件:

主要关注第六列p值,以及第七列marker_Rsq即R2贡献率。

文章来自:Concepts and relevance of genome-wide association studies

我觉得读完这篇文章需要认识SNP, Haplotype, alleles, LD这些基本概念。部分内容由于理解不到位,所以没翻译。尽量看原文理解吧,有错的话请见谅!

摘要:全基因组关联分析(GWAS)技术在过去10年中一直是鉴定疾病和其他性状相关基因的主要方法。已经有超过2000份人类GWAS报告。这项技术还在不断改进,研究人员最近可以研究各种动物、植物和模式生物。在这里,我们将概述GWAS的概念:基础生物学,方法的起源,以及GWAS实验的主要组成部分。

Keywords: genome-wide association study, genetics, statistics, gene discovery

最初开发GWAS是为了研究人类基因组。人类基因组是由超过30亿个DNA碱基组成的序列,可以用AGCT四个字母表示。在整个人类中,许多基因组序列是相同的或高度保守的,但每个人的基因组都是独一无二的。一个特定的人的基因组序列可能与标准的人类参考基因组有超过300万个不同的位置。每一代都有新的突变被引入到基因组中,现在在所有人群中广泛观察到许多旧的突变。这些常见的突变(common mutations)通常被称为变异或多态性(variants or polymorphisms)。

最常见的变异类型是单核苷酸多态性(SNP),其描述单个DNA碱基的变化。同一基因在同一位点上含有不同形式的snp,通常称为等位基因(The different forms of the same gene containing variable SNPs within the same site(s) are typically called alleles)。GWAS方法主要关心在每个研究对象中确定与各种snp相关的等位基因,并进行统计比较以识别与特定性状相关的snp或基因(就是用SNP和群体的表型数据进行统计学关联)。如果某种等位基因在患有疾病的人中比其他健康人更常见,这就被解释为这种等位基因或附近的另一种变异可能导致疾病或至少增加疾病风险的证据(一定要注意直接关联的SNP并不一定是致病SNP,与它邻近的可能也是)。

大多数snp是由某个历史突变事件引起的。由于这个祖先,每一个新的等位基因最初都与其所在的特定染色体的其他等位基因相关联。在单个染色体或染色体部分区段上观察到的特定的一组等位基因称为单倍型(说白了,单倍型是某段染色体区域的一串SNP)。在减数分裂过程中,新的单倍体是通过额外的突变或染色体重组(也称为交叉)形成的。单倍型往往是保守的,特别是在最近有共同祖先的个体中(见fig 1)。在GWAS中,单倍型保守性是一个非常重要的因素。导致某一特定性状的遗传变异可能无法在GWAS中直接检测,但通过同一单倍型内发生的snp的关联,其信号可能是明显的(这是GWAS的核心,上面也有提到)fig2。(The nonrandom co‑occurrence of alleles within a chromosome or haplotype is called linkage disequilibrium, or LD The degree of LD in a population is shaped by selection, recombination rate, mutation rate, consanguinity and other factors)染色体或单倍型内等位基因的非随机共现称为连锁不平衡,或LD。LD在群体中的程度是由选择、重组率、突变率、血缘和其他因素决定的。

The origins of GWAS

使得GWAS成为可能的是21世纪早期的科学进展。人类基因组计划的完成大大提高了我们对人类基因组的认识,为基因变异的研究提供了更好的背景。国际人类基因组单倍型图计划于2005年完成了第一阶段,开展了一项史无前例的SNP发现计划,并首次提供了详细的人类单体型和LD图谱。这些科学成就使人们有可能识别出相对少量的snp,这些snp能够代表人类基因组中大多数常见的变异。GWAS的时代诞生于生物技术公司,包括Affymetrix、Illumina和Perlegen推出了竞争平台,同时对数十万个snp进行基因分型。

2005年,国家人类基因组研究所和欧洲生物信息学研究所进行了对年龄相关性黄斑变性(AMD)的分析。作为第一个GWAS研究,这项研究分析了146名研究对象的约10万个snp,确定cfh基因是AMD的主要风险因子。从此,GWAS每年都会发布数百份报告。近年来发表的人类GWAS研究的数量已经趋于稳定,但研究群体的平均规模继续增长(表1)。目前最大的GWAS研究可能包括超过10万名受试者。(人类GWAS数量是极多的,植物在1000份以上就是超大规模了。动物的样本有时候少的只有几十个)。

GWAS研究可以研究质量或者数量性状位点。在GWAS研究设计中必须考虑几个问题,包括基因分型平台的选择、样本量和样本收集、统计分析计划、统计能力、多重检验的校正和群体结构。

GWAS的基因型数据通常是微阵列检测,该技术可以检测群体内的多态性。基因微阵列涉及三个基本原则:

1DNA微阵列固定特意等位基因的寡核苷酸探针,这些探针是人工合成DNA的短片段,与目标DNA序列互补;

2目标物的核酸片段序列,用荧光染料标记;

3检测和记录杂交信号的系统。

有许多不同的微阵列或“芯片”可用于人类和非人类。一些芯片被设计用来测试尽可能多的snp——目前大约有500万个。有些芯片是专门设计来测试基因编码区域的snp的,这些编码区域约占基因组的2%。其他芯片可能测试相对较少的snp,这些snp是经过精心挑选的,可以有效地代表全世界的单倍型多样性。一些芯片是为特定的种族设计的,或者可能富含与特定疾病相关的基因的snp。在选择基因分型芯片时,重要的是要考虑当前项目的目标,与过去或计划的未来研究数据的兼容性,以及可用的预算。

GWAS研究的下一个目标是收集和记录所需的表型,可以是定量的(整数或实值)或二分的(病例对照)。数量性状可以提供更多的统计力来显示遗传效应,但病例对照研究设计也可以有效地识别与表型相关的多个基因。我们可以在文献中看到例子。

一旦收集到样本并进行基因分型,就可以开始进行全基因组关联的统计分析。这一过程首先进行彻底的质量控制分析,以确认基因型数据的准确性。对每个SNP进行统计假设检验,0假设与表型无关。根据测试的是哪种类型的特质,有许多关联测试可用。数量性状一般采用线性回归方法进行分析,假设性状是正态分布的,各组内方差相同,各组之间是独立的。流行的分析包括方差分析和GLM。二元性状通常使用logistic回归或诸如x2或Fisher精确检验等检验进行分析;logistic回归之所以流行,是因为它允许对其他协变量进行调整。

在GWAS中,统计能力和多重检验校是很重要的问题。在测试大量snp时,假阳性相关性是一个很大的风险,因此必须对相关性的统计证据保持较高的标准。人类GWAS研究中典型的显著性阈值为,P值小于5e - 8,相当于100万独立试验的标准Bonferonni校正。具有较大遗传多样性的种群,例如非洲群体,可能需要更严格的标准来确定测试结果是否具有统计意义。为了达到这样的显著性水平,可能需要非常大的样本量,特别是对于罕见病等位基因和效应值较小的等位基因(Figure 4)。GWAS的统计能力受到许多因素的影响,其中一些因素超出了研究者的控制范围。这些因素包括:表型遗传结构的复杂性,疾病等位基因的频率和效应大小,表型测量的准确性和表型的同质性,以及因果变异和snp之间的LD关系。

标准GWAS检验统计假设分析中的所有样本都是不相关的,并且是从一个统一的随机交配群体中选择的。任何偏离这一假设的行为都可能导致意想不到的结果,尤其是在大型研究群体中(在特定时间段内遭遇特定事件的受试者群体)。例如,如果某一种族的个体在一个实验的对照组中被高估了,由于该种族独特的遗传背景,整个基因组的检测结果的显著性可能会不断膨胀。主成分分析(PCA)可用于基于基因组相似性对研究对象进行分层,常用于评估GWAS中的群体分层(Figure 5)通常,为了解释群体结构会对GWAS的检测方法进行调整。另一种基于pca的校正方法是使用混合线性模型(MLM)回归来解释所有研究对象之间成对等位基因的共享。MLM方法,如EMMAX和 GEMMA有效地解释了人类和农作物中的群体结构。

“没有什么比知道我们自己正在做什么更重要了”

                                                                                       ——小史,20191121之感触

这个年代,谁™还有人做GWAS啊?! 但是跟着的两个导师之一是这方面的专家,我除了吐个槽,还能怎样呢?

维基百科链接: 全基因组关联分析

这玩意就是:找出基因中哪些序列变异(SNP),与疾病相关!

核心就是关联!

基因(改变)与表型(phenotype,总之就是各种各样的看得到的现象)有没有关系!

这些各种各样的看得到的现象是什么?

没啥的,我们搞肿瘤研究的就是发不发病呗(例如会不会得肺癌),搞生物的会对绵羊的有角和无角这一对性状进行研究呗(可别小看,研究角的进化可是能发science的!我™还不知道有什么意义呢~)。

就是统计一个数,找出与表型最有显著性意义的那些基因(位点)。

逻辑回归(表型数据为二元)

线性回归(表型数据为连续性变量)

表型数据正态分析(如果不是正态分布,需转换处理为正态分布)

逻辑回归用于数据为二元的:如0(没病)和1(有病);

线性回归用于数据为连续性的;如林志玲身高173cm,任贤齐174cm,李治廷175cm,黄晓明176cm等,是™像幼儿园数数一样,一个一个连续变化的;

表型数据正态分析:就是啊,大自然的分布一般是钟型的正态分布的,很多统计方法都是根据正态分布作出的分析。某些数据如果不符合正态分布,那么你用正态分布的公式/方法来分析,就会出事的。

1>

以上就是关于3.4 GWAS:遗传力计算全部的内容,包括:3.4 GWAS:遗传力计算、GWAS基本分析内容、GWAS基本建模原理等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9578064.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存