r语言孟德尔随机化分析,怎么把ivw改成随机效应模型_工具

孟德尔随机化（Mendelian randomization,MR）是以孟德尔独立分配定律为基础进行流行病学研究设计和数据分析，论证病因假说的一种方法。由基因型决定中间表型（暴露）的差异，因果方向明确。

通过引入一个称之为工具变量的中间变量，来分析暴露因素和结局之间的因果关系

2孟德尔随机化 vs RCT

孟德尔随机化的目的不是估计遗传效应的大小，而是估计暴露对结果的因果效应，所以与遗传变异相关的结局的平均变化幅度可能与干预措施导致的变化幅度不同

即使遗传变异与结果之间的关联程度很小，暴露的人群归因风险也不一定很低，因为暴露可能会比遗传变异解释更大的变化程度（例如，他汀类药物对低密度脂蛋白胆固醇水平的影响比低密度脂蛋白胆固醇水平与HMGCR基因变异的关联要大几倍，因此对后续结果的影响更大。）

孟德尔随机化要求大样本研究，变异发生率不能太小（最小等位基因频率MAF>5%)

3工具变量

工具变量本身是一个计量经济学的概念，在孟德尔随机中，遗传变异被用作工具变量评估暴露对结局的因果效应，遗传变异满足工具变量的基本条件总结为(孟德尔随机化核心假设)：

关联性假设——遗传变异与暴露有关

独立性假设——该遗传变异与暴露-结果关联的任何混杂因素均不相关

排他性假设——该遗传变异不会影响结果，除非可能通过与暴露的关联来实现

某研究组想了解非洲村落里的儿童补充维生素A和其死亡情况的关联，如果仅仅利用维生素A的服用情况和死亡情况去判断两者的关联，那极有可能会产生很大的偏倚，这是因为维生素A的服用情况和很多潜在因素相关，比如家庭的经济困难程度、家庭成员以及实验儿童的依从性，而这些潜在的因素也可能对儿童的身体健康有很大的影响。因此，在研究起始设计中，研究者便利用工具变量来解决这个问题。

在这里，工具变量Z是指服用维生素A这个任务，类似于随机抽签。这样的话工具变量Z便只和X服用维生素A这个行为相关，与除X以外的混杂因素不相关。

4应用范围

行为因素与健康：基因变异引起各个倾向某行为，决定暴露状态。如ALDH2变异引起乙醛代谢障碍，改变饮酒行为，不同ALDH基因型代表饮酒量多少；

机体代谢产物与疾病关系，估计长期效应。代谢产物是基因表达的中间表型，酶的底物或者体外难测量的代谢指标：如LDL受体基因变异引起家族高胆固醇血症，比较不同基因型之间CHD发病情况的差异，可模拟血胆固醇水平和CHD发病关系；

子宫内环境暴露于子代健康关系。

5发文分析

孟德尔随机化研究均发表在影响因子5分以上的期刊中

6基础分析流程——TwoSampleMR

找工具变量，我们要的是基因作为工具变量，这些基因都是从别人的研究中挑出来的，所有的基因研究有个专门的库叫做genome wide association studies (GWAS)。我们需要做的就是从这个库中挑出来我们自己需要的和我们暴露相关的基因变量SNPs。

估计工具变量对结局的作用，工具变量对结局的作用也是从所有的研究中估计出来的整体效应，这样可以拒绝单个研究的偏倚。

合并多个SNP的效应量，这个效应量是我们得到暴露和结局因果效应的前提。

处理数据，用合并后的数据进行孟德尔随机化分析和相应的敏感性分析。

7TwoSampleMR代码实现

安装相关R包

installpackages('devtools')

library('devtools')

install_github("MRCIEU/TwoSampleMR") #安装TwoSampleMR包

library('TwoSampleMR')

devtools::install_github("mrcieu/ieugwasr",force = TRUE)

获取MR base的表型ID，将结果保存为pheno_infocsv这个文件

ao <-available_outcomes(access_token=NULL) #获取GWAS数据，但近期Google限制，容易被墙

writecsv(ao,'pheno_infocsv',rownames=F）#将数据写入本地存储

查看pheno_infocsv文件，获取与暴露相关的工具变量的信息以及结局信息。这里选择暴露为obesity class 2 （ID = 91），结局为 type 2 diabetes (ID = 1090)

exp_dat <- extract_instruments(outcomes=91,access_token=NULL)

obesity_exp_dat <- clump_data(exp_dat)

t2d_out_dat <- extract_outcome_data(snps=obesity_exp_dat$SNP, outcomes=1090, access_token=NULL)#提取结果信息

dat <- harmonise_data(exposure_dat =obesity_exp_dat, outcome_dat= t2d_out_dat)#数据合并，计算基因对结局的合并效应量

孟德尔随机化

results <- mr(dat)

OR值

OR <- generate_odds_ratios(results)

异质性检验

heterogeneity<- mr_heterogeneity(dat)

多效性检验

pleiotropy<- mr_pleiotropy_test(dat)

逐个剔除检验

leaveoneout<- mr_leaveoneout(dat)

散点图

mr_scatter_plot(results,dat)

森林图

results_single<- mr_singlesnp(dat)

mr_forest_plot(results_single)

漏斗图

mr_funnel_plot(results_single)

实例解析

2022年10月10日

西安交通大学生物医学信息与基因组学中心杨铁林教授团队在Nature Neuroscience （IF=28771）期刊发表了题为：Mendelian randomization analyses support causal relationships between brain imaging-derived phenotypes and risk of psychiatric disorders 的文章。

研究背景

精神类疾病是一组脑功能紊乱的复杂疾病，会导致情感、认知和行为受到干扰和破坏。全球约有数亿人患有不同的精神障碍，被列为严重的公共卫生问题。近年来，脑影像学数据在脑疾病和功能的研究中受到广泛关注。以核磁共振成像为代表的脑影像技术，可用于活体无创定量评估人脑结构、连接和功能的特性。

虽然已有大量的观察性研究证据表明，精神疾病患者与健康正常人的脑影像表型存在显著差异，但脑影像学数据与精神障碍发病机制的因果关系尚不明确，探讨脑影像表型对精神疾病的因果作用具有重要的生物学和临床研究意义。

研究方法和结果

该研究基于大规模基因组数据，对常见的10种精神类疾病（包括注意力缺陷多动症、神经性厌食症、焦虑症、孤独症、双相情感障碍、抑郁症、强迫症、创伤后应激障碍、精神分裂症、抽动症）和587个关键的脑磁共振成像（MRI）结构表型进行了因果关系评估。

正向孟德尔随机化结果发现，脑白质纤维束的上额枕束的FA值和上放射冠的ICVF值、胼胝体内矢状层的MD值、第三脑室的体积等9个脑影像表型是精神分裂症、神经性厌食症和双相情感障碍的风险因素。进一步通过反向孟德尔随机化分析显示，发现精神分裂症的发生会导致额下回眶部的表面积和体积的增加。

该研究将基因组信息作为纽带，使脑影像表型和精神疾病联系起来，避免了观察性研究中由于药物或环境、生活方式等改变引起的样本检测数据偏差的缺点，确保了研究结果的稳健性。

白血病是儿童最常见的血液恶性肿瘤之一，高峰发病年龄为2~5岁 1 。根据国家卫健委的数据显示，随着诊疗的规范和医疗水平的提高，儿童急性淋巴白血病（ALL）如今已成为80%以上可治愈的疾病。

然而，仍有部分难治复发白血病患儿预后不良，且55%的致病性基因突变与疾病发展相关 2 。对此，学术专家们也积极深入探索儿童白血病发病机制、诊疗新技术和新靶点，以进一步提高儿童白血病的治愈率。基于此，我梳理了近期儿童白血病领域研究新进展，以飨读者。

发病机制相关研究成果

rs3824662遗传变异与儿童Ph-like ALL发病风险高度相关

目前，已有越来越多证据表明，相较于成人ALL，儿童ALL发病有显著的遗传易感性。通过全基因组关联研究（Genome-Wide Association Studies，GWAS），至今已发现15个与儿童ALL发病相关的遗传变异位点，分别位于 GATA3、ARID5B、IKZF1、CEBPE、PIP4K2A-BMI1、CDKN2A/2B、LHPP、ELK3、BAK1、IGF2BP1、USP7、IKZF3、ERG、TP63和SP4 ，它们不同程度地增加了儿童ALL的发病风险。

一项发表于Nature Genetics的研究，通过对ALL胚系样本进行深度靶向测序发现，位于GATA3基因的rs3824662遗传变异与儿童费城染色体样急性淋巴细胞白血病（Ph-like ALL）发病风险高度相关 3 。

我们知道，Ph-like ALL是一组与费城染色体阳性ALL具有相似表达谱特征的ALL亚型，预后不良。这项研究对5008名B细胞ALL儿童（包括985名Ph-like ALL）的GATA3基因座进行了深度靶向测序并进行易感性分析，结果显示，转录因子介导的表观基因组重编程可以影响致癌基因的活性，并可能是遗传变异影响癌症发生风险的一个重要机制 3 。

这一研究结论系统地研究了儿童ALL发病机制方面的遗传易感性，丰富了临床对ALL预防的认识，让风险人群的甄别和早期的预防更加精准。

新靶点探索相关研究结果

多种亚型AML的细胞生长依赖于UBE2N基因

急性髓系白血病（AML）是最常见的白血病类型之一。虽然和成人相比，儿童患者的整体生存率显著更高，5年生存率能达到65%以上，但目前高危的儿童AML治疗依然是临床上面临的重大挑战 4 。

美国辛辛那提儿童医院的 Daniel T Starczynowski 教授团队在 Science Translational Medicine 上发表题研究 4 ，研究人员首先通过分析基因表达数据发现，无论是初治患者，还是复发患者，急性髓系白血病细胞中普遍存在异常的先天免疫信号活性。同时，在先天免疫信号通路的众多基因中，研究人员发现数据库中绝大多数急性髓系白血病细胞系生长都依赖UBE2N基因，因此研究人员决定将UBE2N作为后续的重点研究对象。

通过研究发现，AML干细胞具有异常的先天免疫信号活性，而泛素化连接酶UBE2N是维持这种信号的关键分子，多种亚型的AML细胞生长都依赖这个基因。

更重要的是，筛选出的UBE2N抑制剂能显著降低酶的活性，并且控制癌细胞的生长。这项研究揭示了调控AML的一个重要信号通路，并为这类疾病的治疗提供了全新的靶点和思路。

ELP独特细胞特征可能是导致此种基因突变难以治疗、预后差的原因

据报道，在婴儿B-ALL中，70%~80%的患儿携带KMT2A基因的重排 5 ，且预后明显不佳。

对此，来自英国的三个团队分析了传统转录组和单细胞转录组 5 ，发现携带KMT2A基因重排的婴儿B-ALL，有大量细胞在基因表达层面类似胚胎期的早期前体淋巴细胞（ELP），可能是导致此种基因突变难以治疗、预后差的原因，并提出了潜在的治疗靶点。

研究人员在试验中分析了圣裘德儿童医院和TARGET项目中一共1600余个样本的传统转录组数据。这些样本涵盖了儿童急淋和急非淋的一共28种亚型。通过将每个疾病样本和健康骨髓样本对比并进行去卷积分析，得到每个样本最突出的细胞类型特征。

随后，他们发现，携带KMT2A基因重排的婴儿B细胞急淋患儿，初诊样本、复发样本和对治疗无应答的样本，有最多类似ELP的细胞。对治疗应答良好的样本中，几乎没有类似ELP的细胞。这表明ELP可能是导致此种基因突变难以治疗、预后差的原因。

这项研究是高危婴儿白血病的重要进展，并为今后改善这一难治型癌症提供了启示。

儿童B-ALL MRD本质及耐药机制揭示

化疗后持续存在的微小残留病（MRD）是血液系统恶性肿瘤和实体癌治疗监测和预后评价的重要标志物，对此，中国医学科学院血液病医院团队发起了相关研究，旨在进一步揭示儿童B-ALL MRD本质。

研究者首先利用健康儿童供者来源的骨髓单个核细胞绘制了儿童B细胞发育的参考单细胞图谱，并在CCCG-ALL-2015研究队列筛选了4例B-ALL患儿骨髓样本，生成了 161,986 个单细胞转录组，结合单细胞转录组测序技（scRNA-seq）和单细胞BCR测序技术（scBCR-seq），分析B-ALL细胞在诊断、残留和复发时的动态变化。

结果显示，低氧信号通路异常激活是儿童B-ALL MRD细胞的重要特征，且低氧信号通路可能是儿童复发难治B-ALL治疗的潜在治疗靶点 6 。

这项研究结果揭示了MRD的特征，为B-ALL患儿的治疗提供了一个新的思路，为提升患儿预后带来希望。

综上，随着试验研究的深入，儿童白血病的治疗取得了长足进步，同时，血液领域专家、学者们为进一步提升儿童白血病的预后和治愈率仍在不断努力探索中，期待能为白血病患儿带来更好预后。

参考文献：

[1] 儿童白血病的危险因素，杜振兰，2021，19（24），2509

[2] Kim E Nichols etGenomes for Kids: The Scope of Pathogenic Mutations in Pediatric Cancer Revealed by Comprehensive DNA and RNA Sequencing 2021Jun

[3] Jun JYang et Noncoding genetic variation in GATA3 increases acute lymphoblastic leukemia risk through local and global changes in chromatin conformation2022Mar22

[4] Daniel T Starczynowski etBlocking UBE2N abrogates oncogenic immune signaling in acute myeloid leukemia2022Mar

[5] Single-cell transcriptomics reveals a distinct developmental state of KMT2A-rearranged infant B-cell acute lymphoblastic leukemia，2022Mar14

[6] Tao Cheng etElucidating Minimal Residual Disease of Paediatric B-cell Acute Lymphoblastic Leukaemia by Single-cell Analysis，2022Fab10

羊毛出在猪身上，让牛来买单，太绝了。

去年8月，23魔方率先将消费级基因检测价格从999元砍到499元，引起业内震动。迫使WeGene跟进降价。时隔不到一年，今年6月26日，23魔方再次宣布降价，价格腰斩至299元。

据了解，这款299元的检测产品采用赛默飞世尔的定制芯片，包含80万个SNP位点，检测内容包括自身的祖源、遗传风险、遗传特质、遗传变异携带、营养需求、药物反应、运动健身等板块共计170多项。

虽然与临床级产品相比，消费级产品的检测项目内容大多“无关痛痒”，看似可以随意捏造报告数据，其实不然。

一方面是因为检测造假很容易被识破：同一个消费者只要化名寄送两份自己的样本，看看结果是否一致；或者将自己和父母的家系样本分别化名寄送，看看位点是否符合孟德尔遗传，就能找出破绽。检测造假的风险太高，只要竞争对手寄送几个样本试探试探，分分钟身败名裂。

另一方面，消费级的基因检测的技术门槛并不高，若产品流程各环节成本管控做得极好的话，做到这样的低价也不是完全不可能。该公司宣称预期在18年底达到50万人次的样本量，我猜测在这样数量级的采购规模下，SNP+array和试剂耗材的采购成本都会大幅降低。

更何况，23魔方也能像WeGene一样提供全部位点数据下载，因此我认为这款产品的检测不太可能作假，应当是真实可靠的。

在检测不作假的情况下，299元也就能勉强cover检测成本。不少业内人士纷纷质疑，23魔方到底为什么不想赚钱，自愿将盈利空间压缩到极限呢？

傅盛说过，以前的商业模式是羊毛出在羊身上，而现在则有可能是羊毛出在猪身上。正如小米的最大本事：它在看得见的部分可以不挣钱，但却可以用别的方式挣。

“羊毛出在猪身上”是互联网行业（个人认为23魔方和WeGene在本质上更像是互联网企业）惯用的一种策略，一般分两个步骤：

1、利用一个侵略性的价格（极端的就是免费、补贴），找到一个具有普遍性需求的细分市场，大量获取基础用户。

2、基础用户数量突破临界点后，效应显现，此时通过对高价值用户收费或寻找第三方买单的方式获取收入。

羊毛出在猪身上，其实是“甲方卖东西乙方买东西而丙方抢着来买单”的一个有趣概括。最典型的案例就是360。在过去，主流杀毒软件的商业模式就是靠收取年费，360杀毒让用户永久免费使用。360的策略是先把其他杀毒软件的用户都抢过来，然后给他们装360安全浏览器，再向广告商收费。

同样道理，23魔方很可能并不打算靠to C的检测业务赚辛苦钱，而是先想办法靠低价抢占市场憋大招，再靠to B的数据库业务来赚钱。

我们可以把这次降价看作是一次大规模的获取基因数据的行为，目的是积累百万级的中国人群的基因数据库。这样的数据库拥有巨大的商业和科研价值，将会成为23魔方最值钱的资产。只要稍微给用户一点小恩小惠，让他们在APP上填表，收集表型信息，就能做百万人群的队列研究。

23魔方在未来可能的商业模式是收取费用，将数据授权给科研机构或者药厂使用。譬如做GWAS挖掘基因和肿瘤等疾病的相关性，筛选出新发现的易感位点，用于新药研发。

作为普通用户，我更关注基因检测服务背后的用户隐私和数据安全。这里的数据安全有两个维度：一个是外部生物黑客的攻击，存在数据泄密的风险；一个是内部的数据滥用，如何避免基因检测服务商在未经我授权的情况下将我的数据应用于商业或科研中。

首先最好匿名注册这类检测服务；其次，在不授权检测方使用数据的情况下，我建议填表时，能不写实话就不写实话，表型什么的最好全部瞎填。如果检测商信守承诺，不使用我们的数据，自然没影响；若是暗地里偷偷用未授权的数据，那被误导也是咎由自取。

23魔方的299元的价格，对消费级基因检测的行业的冲击相当大。首当其冲的并不是WeGene，而是做各类单项基因检测服务的公司。

以小红书上常见的美肤基因检测和瘦身基因检测为例，这类产品检测范围只有几个到几十个位点，价格还可能卖的比299更贵。而23魔方做80万个位点。就好比，一家店里单点一个汉堡要17块；而另一家店里点一个全家桶才要15块，里面汉堡鸡翅薯条蛋挞啥都有，你怎么选？

目前国内消费级基因检测在很大程度上可以看作是SNP+array（或者其他检测技术平台）的代工测序。直接测出SNP的信息之后，就能出具绝大部分的解读报告，并不需要什么生信算法。

除了祖源分析需要独家的算法之外，别的几乎没有啥技术含量。不少企业的基因检测等于挣的是代工测序的差价。随着23魔方不断拉低终端价格，一旦价格战打起，代工测序的利润会越来越薄。

因此，样本上不了量拼不过价格的公司，倒不如趁早放弃代工测序的路子，沉淀下来打磨算法，在个性化解读方面下功夫。不挣测序的钱，挣算法和解读的钱，未来真正的壁垒在解读，这才是正确思路。

最后，给做单项基因检测服务的公司支个招。如果是我的话，我就放大格局把23魔方这种公司当做自己的测序工厂，索性支持用户上传自己在23andme，WeGene，23魔方等公司测过的基因数据。

譬如用户上传数据后，只需付费20元，就可以生成一份专业级美肤基因检测的报告。一方面，实现轻资产和纯利润；另一方面，不测序同样可以累积别家的数据库。

全基因组关联研究(Genome-wide Association Study, GWAS)是人类基因组计划完成后，实施的一种对复杂性疾病，包括肿瘤、心血管病、糖尿病、肥胖症、精神等疾病的一种成套DNA和全基因组测序和扫描的计划，试图通过测定疾病的基因变异和单核苷酸多态性，建立世界资源共享的相关疾病的基因变异数据库-dbGAP，研究确定疾病发病易感区域和相关基因，寻找疾病的标记物，进行早期诊断和最有效的个体化治疗，开发新药物和新的特异性防治措施。

白癜风属于多点遗传，就和癌症一样属于多点遗传，也就是说父母有白癜风孩子不一定有，父母没有孩子也不一定没有，但父母有白癜风的，孩子得白癜风的概率高一点。同时白癜风的发病还受环境的影响。

附科学家发现的遗传资料：

中国科学家发现白癜风易感基因/首席医学网配图

本报讯 (记者冯立中通讯员颜理海)6月6日，国际著名学术期刊《自然—遗传学》在线发表了由安徽医科大学张学军教授领衔的皮肤病遗传学研究团队的最新成果——全基因组关联分析研究(GWAS)发现白癜风易感基因，研究同时确认白癜风是自身免疫性疾病。

白癜风是一种常见的色素脱失性皮肤病，至今原因不明，我国患者已超过1000万名。该病好发于颜面部，所及之处皮肤色素完全脱失而呈瓷白色，严重影响面容。

该研究采用全基因组关联分析研究方法，共对近2万名中国汉族、维吾尔族白癜风患者和健康对照者进行基因分型，在3个区域内发现与白癜风发病密切相关的基因，包括人类白细胞抗原(HLA)的2个等位基因，6号染色体的RNASET2、FGFR1OP和CCR6，10号染色体的ZMIZ1。专家指出，HLA基因调节人类免疫反应，CCR6与人类自身免疫病发生密切相关，ZMIZ1控制皮肤黑素细胞发育和功能，这些基因的异常表现就导致了白癜风的发生。

张学军说，白癜风的发病机制在学术界一直众说纷纭，该研究以强有力的证据明确，由遗传因素导致的自身免疫异常是白癜风发病的主要原因，这为全面揭示白癜风的发病机制提供了新的证据。该研究还构建了第一个亚洲人群白癜风病例——对照全基因组关联分析数据库，为确定白癜风的发病机制，进行疾病预警、临床诊断、新药开发及个体化治疗提供了直接依据。

该研究由安徽医科大学二附院、一附院，复旦大学附属华山医院等国内30多家单位协作，历时5年，在国家“863”计划、“973”计划以及安徽省专项科研基金的资助下完成。

以上就是关于r语言孟德尔随机化分析,怎么把ivw改成随机效应模型全部的内容，包括:r语言孟德尔随机化分析,怎么把ivw改成随机效应模型、儿童白血病前沿研究荟萃、如何评价23魔方基因检测等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9313413.html

r语言孟德尔随机化分析,怎么把ivw改成随机效应模型

发表评论

评论列表（0条）