偏最小二乘法的原理与实现_随笔

近几年来，机器学习在各个领域都有不错的表现，在生物信息领域也有相关的应用。然而，在诸如基因组学、转录组学、蛋白组学以及代谢组学等高通量数据的一大特点是特征量多、样本数少。

以转录组数据为例，特征量个数通常为基因个数，达到万级，而样本数一般是几十到几百例。当我们基于转录组数据去研究基因表达与其他性状之间的联系时，对于这种自变量大于观察个数的情况，无法直接使用传统的统计分析模型。这时，有一种相当有效的方法—偏最小二乘回归(partial least squares regreesion, PLS)。

接下来我们对于这种方法的原理进行介绍，并说明如何实现这种方法的计算，以及在实例中的应用。

在实际问题中，经常遇到需要研究两组多重相关变量间的相互依赖关系，并研究用一组变量（常称为自变量或预测变量）去预测另一组变量（常称为因变量或响应变量），除了最小二乘准则下的经典多元线性回归分析（MLR），提取自变量组主成分的主成分回归分析（PCA）等方法外，还有近年发展起来的偏最小二乘（PLS）回归方法。

偏最小二乘回归提供一种多对多线性回归建模的方法，特别当两组变量的个数很多，且都存在多重相关性，而观测数据的数量（样本量）又较少时，用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。

偏最小二乘回归分析在建模过程中集中了主成分分析，典型相关分析和线性回归分析方法的特点。因此，在分析结果中，除了可以提供一个更为合理的回归模型外，还可以同时完成一些类似于主成分分析和典型相关分析的研究内容，提供更丰富、深入的一些信息。

PLS方法是建立在X（自变量）与Y（因变量）矩阵基础上的双线性模型，可以看做是由外部关系(即独立的X块和Y块) 和内部关系(即两块间的联系) 构成。

建立自变量的潜变量关于因变量的潜变量的线形回归模型，间接反映自变量与因变量之间的关系。该算法在建立回归的过程中，既考虑了尽量提取Y和X中的主成分（PCA—Principal Component Analysis，主成分分析的思想），又考虑了使分别从X和Y提取出的主成分之间的相关性最大化（CCA的思想）。

简单的说，PLS是PCA、CCA和多元线性回归这三种基本算法组合的产物。具体计算方法可以通过下面的程序来了解。

上述的算法提供了具体的PLS回归的计算过程。实际应用中，matlab提供可用于计算PLS回归的函数plsregress,可以方便使用。

调用的命令：[XL,YL] = plsregress(X,Y,ncomp)，表示使用ncomp个PLS成分来计算因变量Y相对自变量X的变化。

与传统多元线性回归模型相比，偏最小二乘回归的特点是：

（1）能够在自变量存在严重多重相关性的条件下进行回归建模；

（2）允许在样本点个数少于变量个数的条件下进行回归建模；

（3）偏最小二乘回归在最终模型中将包含原有的所有自变量；

（4）偏最小二乘回归模型更易于辨识系统信息与噪声（甚至一些非随机性的噪声）；

（5）在偏最小二乘回归模型中，每一个自变量的回归系数将更容易解释。

在计算方差和协方差时，求和号前面的系数有两种取法：当样本点集合是随机抽取得到时，应该取1/(n-1)；如果不是随机抽取的，这个系数可取1/n。

PLS-DA分析法指的是偏最小二乘回归分析法。

偏最小二乘回归分析法是一种统计学方法，与主成分回归有关系，但不是寻找响应变量和自变量之间最大方差的超平面，而是通过投影分别将预测变量和观测变量投影到一个新空间，来寻找一个线性回归模型。

因为数据X和Y都会投影到新空间，PLS系列的方法都被称为双线性因子模型。当Y是分类数据时称为“偏最小二乘判别分析（Partial least squares Discriminant Analysis， PLS-DA）”。

扩展资料：

偏最小二乘回归的算法：

偏最小二乘的许多变量是为了估计因子和载荷矩阵T、U、P和Q。它们中大多数构造了X和Y之间线性回归的估计Y=XB+Bo。一些偏最小二乘算法只适合Y是一个列向量的情况，而其它的算法则处理了Y是一个矩阵的一般情况。

算法也根据他们是否估计因子矩阵T为一个正交矩阵而不同。最后的预测在所有不同最小二乘算法中都是一样的，但组件是不同的。

参考资料来源：百度百科-偏最小二乘回归法

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5826496.html

偏最小二乘法的原理与实现

发表评论

评论列表（0条）