【代谢组学】代谢组学与其他组学数据的整合

【代谢组学】代谢组学与其他组学数据的整合,第1张

​主要内容:

1多组学数据整合概述

2主要分析软件汇总

3数据预处理的方法

1多组学数据整合概述

11 多组学数据整合的现实意义

在研究疾病和其他性状或扰动的分子机制时,在一个以上的组学平台上进行分子分析是一种常见的做法。 

意义:多组分平台数据的整合分析为生物系统提供了更全面的分子特征,有可能改进疾病分子机制的发现以及诊断和预后预测模型。 

目的:整合分析主要是为了更好地确定不同类型的生物分子是如何关联的(例如,代谢数量性状位点(mQTL)分析),为了确定与表型或疾病结局显著相关的分子途径,或者提高预测性能,例如,在生物标记物发现和诊断或预后应用的情况。 

如果数据集不是从同一个人那里收集的,那么跨组学数据集的整合分析的范围也是有限的。

2 分析使用的原材料

21 可以参与分析的“材料”

1软件:所有可以进行统计分析和数据可视化的软件都可以使用(例如,R)。 

2计算资源:原则上,所有分析都可以在功能相当强大的台式计算机上进行,尽管建议在某些分析中使用更强大的计算资源,例如计算服务器。 

3研究设计:主要考虑匹配样本研究设计,在多元分子表型(-omics)平台上分析来自相同个体的生物样本。例如,在匹配样本设计中,单个血液样本可以分成两份,其中一份在代谢平台上分析,另一份在转录平台上分析。然而,匹配样本设计可以基于同一生物样本小份体液,但也可以不一定要基于,例如在同一时间点从同一个人采集的血液样本和另一组织活检样本,即匹配。

4预处理。分析中使用的数据集需要适用于特定分子分析平台的标准方法先行进行预处理,包括质量控制和排除潜在异常值和/或非典型观测。

3 数据分析的方法

31 mQTL分析:代谢特性的遗传驱动因素

描述遗传变异(通常以单核苷酸多态性(SNPs)的形式)与代谢产物丰度之间的统计关联,为理解代谢的遗传驱动因素提供了手段。mQTL分析需要来自相同个体的代谢谱数据和基因分型数据(SNP阵列或DNA测序数据)。基于群体的mQTL研究采用类似于全基因组关联研究的统计方法,不同之处在于表型响应变量是代谢丰度。mQTL分析通常是通过全基因组的单变量关联分析进行的,通常假设一个附加的遗传模型,其遗传效应主要由等位基因的数量编码。对于每个代谢物或代谢特征,进行全基因组扫描,以测试与遗传变异的关联。mQTL分析的结果是关于影响代谢丰度的候选基因驱动因素的信息。

311 mQTL分析过程

1预处理和质控SNP分析数据,去除具有低质量位点和具有次等等位基因频(MAF)的变体;

2预处理和质控代谢组数据(取决于平台和样本类型); 

3对于每一对代谢物—遗传变异位点: 

    a)拟合一个统计模型来检验代谢物-遗传变异的关联。通常使用线性模型,以代谢特征为响应变量,以遗传变异和相关协变量(如性别、年龄、批次)为预测变量; 

    b)对与遗传效应有关的模型参数进行统计零假设检验(如Wald检验或似然比检验),以确定p值

    c)保存与每个遗传变异-代谢物对儿的遗传效应相关的p值(和相关参数估计)。

4调整保存的p值向量以进行多次测试,例如基于错误发现率(FDR)的方法。 

5使用FDR调整的p值和可接受的FDR水平(通常<005)确定哪些mQTL模型具有统计显著性。

6对于重要的mQTL模型,对模型执行额外的质量控制(高杠杆点,检查残差分布),以确保没有异常值或其他非典型观测影响结果。 

7以表的形式展示结果,表中列出了重要的SNP-代谢物对儿,并展示了排名最高的重要模型。典型图表类型包括曼哈顿图,对于每个重要的代谢物-SNP对儿,绘制代谢物丰度与主要等位基因数(通常编码为0、1或2)的比较。 

8重要mQTL变异的功能解释可以通过确定变异体是否位于基因的编码区来进行,这将表明该基因与相关代谢物之间的功能关系。如果变异体不位于基因的编码区,则可以基于与mQTL变异的基因组距离来确定候选功能基因,在mQTL变异体附近定位的基因将被视为主要功能候选基因。

32 基于代谢途径的整合分析

代谢途径分析提供了一种方法来确定特定的分子路径或生物过程是否与特定的生物扰动相关,如疾病状态。 

代谢途径分析提供了一个将更广泛的生物学功能分配给分子层面的机会,并且可以帮助对研究结果进行生物学解释。 

进行代谢途径分析的两个最常见的框架是基于过度代表(OR)(或)或基于秩的假设检验。 

这里我们采用基于秩的检验方法,其中基因集富集分析(GSEA)是在转录组数据背景下进行代谢路径分析的一个常见例子,它也可以应用于代谢组数据。使用GSEA或OR分析的途径分析也可以通过结合代谢组学和转录组学数据来进行,好处是从这两种数据类型中收集信息以确定代谢途径富集程度。 

代谢途径分析的结果是基于代谢组学和转录组学数据中的证据,给出关于哪些分子途径与所研究的表型相关的信息。

321 代谢途径分析过程

1使用平台特定的方法对转录组和代谢组数据进行预处理和质控。 

2将代谢物标识符分配给轮廓代谢物,然后可以将其映射到生物途径。我们假设转录组数据已经有了带有变量标准标识符的注释信息(例如,Ensembl、Entrez或基因ID),它们也可以映射到路径。 

3对每个带注释的代谢物和每个转录组变量进行单变量关联分析,以确定它们与感兴趣的表型或结果的关联,例如病例-对照状态。在基于秩的(GSEA)分析中,秩是由每个变量的估计效应大小(例如,固定效应模型中的系数)决定。在OR分析中,重要的代谢物和/或基因集合由每个变量的统计零假设检验确定。

4分别使用转录组和代谢组数据进行途径富集分析,例如GSEA,并存储与每个路径相关的p值。 

5结合来自转录组和代谢组数据代谢途径丰度证据,确定两个数据集的组合路径显著性。可以使用基于排列的测试来确定显著性。 

6以表的形式显示结果,表中列出了与p值和FDR调整p值相关的重要途径。

33 结合代谢组学和其他组学数据进行预测建模

预测建模,例如分类或回归,是生物医学研究中的一个共同目标,可以针对疾病诊断、亚型或预后等的预测。 

有时,这种模型的预测性能可以通过包含一种以上的分子表型(-omics)数据来提高。

如果额外的数据(即额外的分子表型)有助于提供补充与预测感兴趣的结果相关的信息,则预期会出现改进的预测性能。如果预测性能没有得到改善,这意味着添加的数据要么根本不是预测性的,要么只是在第一个数据集中捕获的内容上提供冗余信息。 

这项分析的结果是哪个分子表型平台提供了最好的预测信息,如果差异在统计学上是显著的,并且如果两种分子层面数据的联合(组合)建模提供了一个改进的预测模型。

331 预测模型过程

1预处理和质控代谢组学数据和从同一个体收集的额外分子数据,例如转录组数据。

2选择适合高维数据的多元预测模型(如PLS、OPLS-DA或lasso)。在后续步骤中使用此模型。 

3应用(嵌套)交叉验证优化模型参数并评估预测性能,或使用外部测试集评估预测性能。在分类的情况下,受试者工作特征曲线(ROC)和ROC曲线下面积(AUC)通常用于确定分类性能。分别基于各分子表型平台的数据评价模型的预测性能。 

4基于来自两个分子分析平台的数据优化和评估模型的预测性能(参见步骤3),在这两个平台上,数据通过变量的直接连接进行组合。

5比较单个数据集和组合数据集之间ROC曲线和ROC-AUC的差异。如果需要,统计零假设检验可用于确定ROC-AUC估计值是否存在显著差异。 

6可用于未来数据预测的最终预测模型使用优化模型参数(步骤3和4)使用数据集中的所有观测值进行拟合,而不是基于交叉验证训练集拟合的模型。 

7以表格的形式呈现结果,表中分别包含每个数据和组合模型的交叉验证(或外部测试集)的AUC估计值。另外还包括相应ROC曲线的可视化和与AUC值比较相关的假设检验p值。

表达量数据预处理

原始数据包含质控样本(quality control, QC)和检测样本,为了更好地分析数据,需要对原始数据进行一系列的预处理,主要包括对原始数据缺失值过滤,模拟(missing value recoding),数据归一化(normalization),QC验证和数据转换。经过数据的预处理,可以减小数据中与研究目的不相关的变异对数据分析的影响,利于潜在目标差异代谢物的筛选和分析。

缺失值过滤

样本可能会由于某些原因(a 信号很低检测不到;b 检测错误,如离子抑制或者仪器性能不稳定;c 提峰的算法限制,不能从背景中将低的 信号提取出来;d 解卷积时不能将重叠的峰全部解析出来。),造成一个或多个值的缺失。在表格中缺失值通常是以空值的形式或者是NA (Not A Number)存在的。根据样本或分组内缺失值的比例,进行数据过滤是代谢组学分析中常用的方法。

缺失值填充

对于未被过滤的缺失值,如果直接忽视,这样的数据矩阵可能会影响后续算法的计算,将会触发异常。因此需要进行模拟填充,主要方法有极 小值、中位数(适合偏态分布)、平均值(适合正态分布)、随机森林、最大期望值和补零。

数据归一化

数据归一化是将数据映射到特定范围之内再进行处理,有利于便捷快速的运算。数据归一化是数据预处理重要一步,可消除样本处理、浓度差异、仪器偏差等统误差。代谢组学常用数据归一化方法:中位数、平均数、总和、指定样本和内参。

QC验证

计算某个离子在QC样本中的RSD(标准差/均值),其值越小,说明偏差越小;代谢组学需要剔除RSD超过该阈值的变量,一般RSD > 30%的变量 在实验过程中波动较大,不参与做差异定量分析。

数据转换

代谢组学分析一般要求数据为正态分布或者高斯分布,数据通常需要进行Log转化。Log转化可以矫正数据集的异方差性,减少或消除数据结构的不对称性,提高数据结构的正态分布性。从而满足常见的统计分析方法如student's test,线性回归和相关性分析等假设,达到减少分析误差的效果。

首先明确代谢组学的核心任务。对小分子代谢物的定性、定量分析并发现差异代谢物:(1)对生物体系中的内源性代谢物及其变化规律进行表征;(2)以差异代谢物作为核心对生命奥秘进行解析。而基于色谱/质谱联用的分离分析技术具有灵敏度高、选择性好、动态范围宽、信息丰富等优点,已成为代谢组学研究的主流技术平台。

其次明确代谢组学的研究方法。对于非靶向代谢组学而言,色谱与高分辨质谱的联用必不可少;而对于靶向代谢组学而言,基于多反应监测(MRM)模式的三重四极杆质谱被认为是质谱定量的  “金标准”。近年来,拟靶向技术由于结合了非靶向和靶向分析技术的双重优势,在代谢物分析的覆盖度上与非靶向方法接近,在灵敏度上与靶向分析一样,迅速发展成为代谢组学的主流研究方法。拟靶向代谢组学主要包括三个步骤:(1)基于四极杆飞行时间质谱的非靶向分析;(2)母离子/产物离子对的选择及检测参数优化;(3)使用三重四极杆或QTRAP质谱采用MRM模式(包括上述离子对)对样品进行分析。

关键点有哪些?代谢组学整个研究过程可以细分为20多个步骤,若每一步准确率为70%,最终结果的准确率不足01%,因此必须确保每一步(尤其是关键步骤)都规范、准确,才能保证研究结果准确、可靠。影响代谢组学研究质量的关键环节包括:(1)系统科学的研究方案;(2)样本收集、分组、储存、前处理、质量控制;(3)数据采集与质量控制;(4)数据处理、分析;(5)差异分子筛选与鉴定;(6)分类模型构建与验证;(7)数据库自建、管理与使用。这些环节受制因素较多,需要参考研究论文、技术规范、注意过程控制,采用专业的技术和工具支持才能获得高质量的研究结果。

为什么关键?围绕快速、有效地发现分子和标志物这一目的,精准和高通量正成为引领发展的方向。代谢组学研究需要满足生物医药、食品等行业的个性化分子智能识别需求,所以需要分子智能识别检测技术做支撑,需要自主知识产权的核心算法,才能保证专业化的组学、质谱数据处理、数据挖掘。

总结来说,在组学研究过程中,只有做好分子特征检测、差异分子筛选、差异分子鉴定、分类模型构建、数据库自建等关键步骤,才能得到最好的组学研究结果。

其实,代谢组学数据处理主要包括2个步骤:原始数据预处理和数据分析。

1 原始数据预处理

确保实验的设计合理和实验的数据准确的基础上,首先从质谱原始数据出发,进行峰对齐、保留时间校正和峰面积提取;其次,采用精确质量数匹配(<25 ppm)和二级谱图匹配的方式,检索METLIN数据库和 HMDB 数据库对代谢物结构进行鉴定;接着,删除缺失值均大于50%的离子峰;最后,对代谢物的表达量进行对数转换并采用autoscaling或UV法进行归一化处理。下图是数据经归一化处理前后的分布情况,结果表明数据经归一化处理后基本呈正态分布

1代谢物提取,一般要求每组至少10个样;

2在所有提取好的样本中取等量混合作为QC;

3QC样本与实验样本穿插上机,开始十个QC,结尾三个QC,中间每十个样本穿插一个QC样本

得到质谱谱图数据经软件处理后得到峰表。

峰表格式一般为:每行为一个m/z,每列为一个样本

数值表示该样本中某个m/z的信号响应。

第一列为 保留时间_质荷比 来代表离子,如 010_969574m/z 。

一般有如下几点:

1数据预处理。如缺失值过滤填充、数据归一化等。

2数据质控。包括CV分布、QC等。

3统计分析。包括单变量、多变量等。

4功能分析。包括Pathway、网络分析、Biomarker筛选等。

缺失值处理

1)缺失原因

a 信号很低检测不到;

b 检测错误,如离子抑制或者仪器性能不稳定;

c 提峰的算法限制,不能从背景中将低的信号提取出来;

d 解卷积时不能将重叠的峰全部解析出来。

2)缺失值过滤

比如:

QC样本中缺失超过50%的去除;

样本中缺失值超过80%的去除。

3)缺失值填充

-- 最小值填充

-- 平均值/中值填充

-- KNN( k-nearest neighbour)填充

-- BPCA(Bayesian PCA)填充

-- PPCA(probabilistic PCA)填充

-- Singular Value Decomposition (SVD)

一般推荐KNN。

噪音信号去除

一般是低质量的离子。

1)低质量离子的确定:

计算某个离子在QC样本中的RSD(标准差/均值);其值越小,说明偏差越小;

2)判断标准:

-- 对单个离子峰而言,RSD<03,则该离子峰合格,否则去除;

-- 对于整体数据而言,RSD<03,峰所占比例>60%,则整体数据合格;

样本归一化

目的是为了提高样本间的可比性。

样本间有差异性,如不同人的尿液浓度不同,不能直接拿来比较。

可在采集前归一化,如肌酸酐归一化;也可在采集后归一化,如sum,pqn,quantile等。对于数据分析而言,通常是后者,如总和归一化(sum)。

数据转换

下游的分析一般要求数据为正态分布或者高斯分布;

所以数据通常要进行Log转化或power转化,这两者都能够将极大值的抑制效应消除,并且能够调整数据的分布,如下图;

Log转化对0值比较敏感,必须首先去除零值。

数据转换——scaling

目的是消除极大值效应。

对不同样本中同一个m/z的强度差异过大进行调整,极大值的存在往往会掩盖较低值的变化特征。

可将某个m/z在所有样本中的强度的值,除以一个因子(SD值);

方法如auto (uv),pareto(推荐),vast, range等。

相当于上面样本归一化是为了样本可比,scaling是为了离子可比。

QC样本的TIC重叠情况

一般认为:

所有的QC样本峰重叠良好;

峰强度波动差别不大;

QC样本中CV<30%的峰所占比例

PCA中QC样本的聚集程度

QC样本的相关性

单变量分析

一次只分析一个变量,即一个m/z,考察不同组别不同样本的这个m/z表达有无差异?

常见的方法有倍数分析,t检验,秩和检验,方差分析等。

聚类分析

核心思想就是根据具体的指标(变量)对所研究的样品进行分类;

聚类分析需要设定一个方法来衡量样本间的相似性或者不相似性(常用欧式距离,相关性系数等);

常见聚类的方法:系统聚类(层次聚类)、K-均值聚类等。

K-均值首先要估计出将要分出几个类,然后将全部的基因按照相似性的距离,归入这几类中。

K– means计算量要小得多,效率比层次聚类要高。

无论哪种分类方法,最终要分成多少类,并不是完全由方法本身来决定,研究者应结合具体问题而定。

聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同。

使用聚类方法时, 首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。

多变量分析

1)PCA分析

以下分别是得分图(样本在新的坐标系中的位置

)和载荷图(loading图,原变量与主成分间的夹角)

PCA怎么看?

2)偏最小二乘法

PLSDA的图和PCA类似。只是一种监督学习的方法,事先给样本分类,最后看能否将不同组分开。

用R2和Q2进行模型评价。

R2是相关性系数,表示这个模型的 拟合效果 ,是一个定量的测量(范围0-1),意味着所建立的模型能在多大程度上代表真实的数据;

一般当R2在07-08表示模型解释能力较好,较差的模型的R2往往为02-03

Q2表示PLS-DA模型的 预测能力

一般Q2大于05表示预测能力较好,并且R2与Q2的值应该比较接近。

使用permutation test模型进行过拟合检验。

VIP ( Variable Importance in Projection) 变量重要性投影

每一个m/z都有VIP值,表示这个m/z在某一个主成分上的投影,即 重要程度

一般我们使用第一、第二主成分的VIP来表示这个m/z对模型分型的贡献程度, VIP>=1被认为是具有显著贡献的

代谢组学数据分析最后两部分内容——功能分析和生物标志物筛选见下节内容

主成分分析(PCA)和偏最小二乘法(PLS)是对变量数超过样本数量或变量之间存在多重共线性的组学数据进行可视化、回归、分类和特征选择的常用方法。

PLS和正交偏最小二乘法(OPLS)是有监督的模式,它们使用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型,实现对样品类别的预测,是一种建模类型的方法 相较而言,OPLS能够分别对相关因子和不相关变异进行建模,虽然计算方式与PLS相同,但OPLS具有更强的解释性。

而且,当无监督(PCA)无法很好地区分组间样本时,PLS-DA可以实现有效分离。并且PLS-DA和OPLS-DA所构建的分类预测模型,可进一步用于识别更多的样本类别,这是探索性的PCA方法无法做到的。

另外,PLS-DA和OPLS-DA所构建的分类模型中的载荷图可用于衡量各代谢物组分对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选。 ## 实例解读

OPLS-DA loading plots for different mulberry cultivars

该数据是通过液相色谱-高分辨率质谱(LC-HRMS)来研究年龄、体重指数(bmi)和性别对尿液中代谢物浓度的影响,是一个list具体包含:

由于目的是识别给定数据集的特征,而不是建模预测未知数据的分类,在这里将所有数据均作为训练集构建模型。

opls的计算结果中常用对象包括:

执行PLS统计建模时,一般会同时给出4个:

PLS-DA model of the gender response

显著性诊断(左上) :实际和模拟模型的R2Y和Q2Y值经随机排列后的散点图,模型R2Y和Q2Y(散点)大于真实值时(横线),表明产生过拟合 2 。

Inertia(惯量)柱形图(右上) :通过展示累计解释率评估正交组分是否足够

离群点展示(左下) :通过scoreMN和loadingMN计算出各样本在投影平面及正交平面的坐标,并标明相互差异较大的样本。

x-score plot(右下) :各样本在PLS-DA轴中的坐标;R2X、R2Y等值展示在下方,用于评估模型优度:

与其说是可视化方法,不如称为数据提取章节。

通过变量投影重要度(Variable Importance for the Projection,VIP),可以衡量各代谢物组分含量对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选(阈值通常设为1)。

Orthogonal partial least squares(OPLS) 将观测值矩阵X的差异分为两个部分:第一部分代表与Y相关的差异,第二部分代表与Y不相关(正交垂直)的差异,结果展示时需要结合起来讨论;由于OPLS区分了无关变量数据,从而使模型更加容易解读。

另外,OPLS可以更好地避免过拟合现象,预测性能优势并没有明显提升;因此,如果PLS-DA模型尚可:“summary”的4个plot的结果比较好,仍推荐使用PLS-DA。

执行OPLS后的数据提取,与PLS和PCA略有不同,需要同时考虑得分矩阵和正交矩阵。

过度拟合(Overfitting)是当机器学习应用于具有比样本更多变量的数据集的主要问题;前期随机数实验表明:当变量的数量超过样本的数量时,可以实现完美的PLS-DA分类。而,当样本数量超过观测的数量时,PLS过度拟合可能发生。因此,有必要通过标签的随机排列来检查模型的Q2Y值是否显著。

1 Li, H et al Abnormal expression of bHLH3 disrupts a flavonoid homeostasis network, causing differences in pigment composition among mulberry fruits Hortic Res 7 , 83 (2020)

2 Thevenot, E A, Roux, A, Xu, Y, Ezan, E & Junot, C Analysis of the human adult urinary metabolome variations with age, body mass index and gender by implementing a comprehensive workflow for univariate and opls statistical analyses Journal of Proteome Research 14 , 3322–3335 (2015)

3 Thévenot, E A, Roux, A, Xu, Y, Ezan, E & Junot, C Analysis of the human adult urinary metabolome variations with age, body mass index, and gender by implementing a comprehensive workflow for univariate and opls statistical analyses 14 , 3322–3335 (2015)

整体。既包含CRO公司品牌、商誉、组织人才、实施案例、客户口碑、公司大小,还包含技术细节、设备实力、人才能力、数据处理能力、服务效率、服务人员是否经验丰富、数据库量和质,此外,还有自己的资金支持、重视程度、目标层次不同等自身需求原因。

全过程。代谢组学又包含样本前处理、数据获取、峰检测、峰对齐、差异特征筛选、化合物鉴定、二级谱验证、定量检测等流程,其中除了实验标准,质量把控要严格外,一直被大家疏忽的还有数据处理部分,如果检测信号不准确,批次效应无法对齐,不同方法得到的实验结果完全是不一样的。下面实验时我用相同数据,采用不同软件得到的PLSDA结果图,可以看到左边图完全分不开,右侧图能够清晰分开,可以看出不同峰检测算法对于信号的检测对比差异非常明显。所以,我们需要把控实验前处理质量和方法的同时,还需要考察CRO公司的数据处理能力。

核心。有无自建的谱图数据库和高精度的智能峰检测算法,对于提高化合物覆盖度、鉴定率、准确性至关重要,不同数据处理方法的结果是天差地别的。

以上就是关于【代谢组学】代谢组学与其他组学数据的整合全部的内容,包括:【代谢组学】代谢组学与其他组学数据的整合、代谢组学 表达量数据预处理 简介、做好代谢组学研究的关键在哪里等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10184315.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存