数据降维方法介绍（六）_CMS教程

姓名：何源学号：21011210073 学院：通信工程学院

嵌牛导读线性鉴别分析方法介绍

嵌牛鼻子线性鉴别分析（LDA）

嵌牛提问线性鉴别分析方法如何降维以及原理是什么？

嵌牛正文

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。假设有两类数据，分别为红色和蓝色，如下图1所示，这些数据特征是二维的，希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。

从直观上可以看出，右图要比左图的投影效果好，因为右图的黑色数据和蓝色数据各个较为集中，且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了，当然在实际应用中，数据是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

LDA算法既可以用来降维，又可以用来分类，但是目前来说，主要还是用于降维。在进行图像识别相关的数据分析时，LDA是一个有力的工具。下面总结下LDA算法的优缺点。

优点：

（1）在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识；

（2）LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

缺点：

（1）LDA不适合对非高斯分布样本进行降维，PCA也有这个问题；

（2）LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题；

（3）LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好；

（4）LDA可能过度拟合数据。

许多数据分析应用都会涉及到从短文本中提取出潜在的主题，比如微博、短信、日志文件或者评论数据。一方面，提取出潜在的主题有助于下一步的分析，比如情感评分或者文本分类模型。另一方面，短文本数据存在一定的特殊性，我们无法直接用传统的主题模型算法来处理它。短文本数据的主要难点在于：

主题提取模型通常包含多个流程，比如文本预处理、文本向量化、主题挖掘和主题表示过程。每个流程中都有多种处理方法，不同的组合方法将会产生不同的建模结果。

本文将主要从实际 *** 作的角度来介绍不同的短文本主题建模算法的优缺点，更多理论上的探讨可以参考以下文章。

下文中我将自己创建一个数据集，并利用 Python scikit-learn 来拟合相应的主题模型。

本文主要介绍三个主题模型, LDA(Latent Dirichlet Allocation), NMF(Non-Negative Matrix Factorization)和SVD(Singular Value Decomposition)。本文主要采用 scikit-learn 来实现这三个模型。

除了这三个模型外，还有其他一些模型也可以用来发现文档的结构。其中最重要的一个模型就是 KMeans 聚类模型，本文将对比 KMeans 聚类模型和其他主题模型的拟合效果。

首先，我们需要构建文本数据集。本文将以四个自己构建的文本数据集为例来构建主题模型：

首先，我们需要考虑下如何评估一个主题模型建模效果的好坏程度。多数情况下，每个主题中的关键词有以下两个特征：

一些研究表明：关键词还需具备以下两个特征：

接下来，我们将介绍如何实现上述的四个模型——NMF, SVD, LDA 和 KMEANS。对于每个主题模型，我们将分别采用两种文本向量化的方法—— TF(Term Frequence) 和 TFIDF(Term-frequence-inverse-document-frequence)。通常情况下，如果你的数据集中有许多词语在多篇文档中都频繁出现，那么你应该选择采用 TFIDF 的向量化方法。此时这些频繁出现的词语将被视为噪声数据，这些数据会影响模型的拟合效果。然而对于短文本数据而言，TF和TFIDF方法并没有显著的区别，因为短文本数据集中很难碰到上述情况。如何将文本数据向量化是个非常热门的研究领域，比如基于word embedding模型的方法——word2vec和doc2vec。

主题模型将选择主题词语分布中频率最高的词语作为该主题的关键词，但是对于 SVD 和 KMEANS 算法来说，模型得到的主题词语矩阵中既包含正向值也包含负向值，我们很难直接从中准确地提取出主题关键词。为了解决这个问题，我选择从中挑出绝对数值最大的几个词语作为关键词，并且根据正负值的情况加上相应的标签，即对负向词语加上 "^" 的前缀，比如"^bergers"。

sklearn 中的 truncated SVD implementation 类似于主成分分析算法，它们都试图利用正交分解的方法选择出具有最大方差的变量信息。

对于 clearcut-topic 数据集来说，我们分别利用 TF 和 TFIDF方法来向量化文本数据，并构建 SVD 模型，模型的拟合结果如下所示。正如我们之前所提到的，SVD 模型所提取的关键词中包含正负向词语。为了简单起见，我们可以理解为该主题包含正向词语，不包含负向的词语。

比如，对于 "Topic 1: bergers | ^hate | love | ^sandwiches" 来说，该文本的主题中包含 "love bergers" 但是不包含 "hate sandwiches"。

由于模型的随机效应，所以每次运行模型得到的结果都会存在细微的差异。在 SVD 的拟合结果中我们发现发现 Topic 3: bergers | ^hate | ^love | sandwiches 成功地提取了 “food” 的主题。

当我们在解释 SVD 模拟的拟合结果时，我们需要对比多个主题的信息。比如上述的模型拟合结果可以解释成：数据集中文档的主要差异是文档中包含 “love bergers” 但不包含 “hate sandwiches”。

接下来我们将利用 SVD 来拟合 unbalanced topic 数据集，检验该模型处理非平衡数据集的效果。

从下述结果中可以看出，SVD无法处理噪声数据，即无法从中提取出主题信息。

LDA 是最常用的主题提取模型之一，因为该模型能够处理多种类型的文本数据，而且模拟的拟合效果非常易于解释。

直观上来看，LDA 根据不同文档中词语的共现频率来提取文本中潜在的主题信息。另一方面，具有相同主题结构的文本之间往往非常相似，因此我们可以根据潜在的主题空间来推断词语之间的相似性和文档之间的相似性。

LDA 算法中主要有两类参数：

接下来我们将研究这些参数是如何影响 LDA 模型的计算过程，人们更多的是根据经验来选择最佳参数。

与 SVD 模型不同的是，LDA 模型所提取的主题非常好解释。以 clearcut-topics 数据集为例，LDA 模型中每个主题都有明确的关键词，它和SVD主要有以下两个区别：

此外，对 LDA 模型来说，采用不同的文本向量化方法也会得到不同的结果。

在 sklearn 中，参数 topic_word_prior 和 doc_topic_prior 分别用来控制 LDA 模型的两类参数。

其中 topic_word_prior 的默认值是(1/n_topics)，这意味着主题中的每个词语服从均匀分布。

NMF 可以视为 LDA模型的特例，从理论上来说，这两个模型之间的联系非常复杂。但是在实际应用中，NMF 经常被视为参数固定且可以获得稀疏解的 LDA 模型。虽然 NMF 模型的灵活性不如 LDA 模型，但是该模型可以很好地处理短文本数据集。

另一方面，NMF 最大的缺点是拟合结果的不一致——当我们设置过大的主题个数时，NMF 拟合的结果非常糟糕。相比之下，LDA模型的拟合结果更为稳健。

首先我们来看下 NMF 模型不一致的拟合结果。对于 clearcut topics 数据集来说，当我们设置提取5个主题时，其结果和真实结果非常相似：

类似于 KMeans 模型的聚类方法能够根据文档的向量形式对其进行分组。然而这个模型无法看成是主题模型，因为我们很难解释聚类结果中的关键词信息。

但是如果结合 TF或TFIDF方法，我们可以将 KMeans 模型的聚类中心视为一堆词语的概率组合：

最后，我将简单比较下不同的主题提取模型。大多数情况下，我们倾向于根据文档的主题分布情况对其进行分组，并根据关键词的分布情况来提取主题的信息。

大多数研究者都认为词语的语义信息是由其上下文信息所决定的，比如 “love” 和 “hate”可以看成是语义相似的词语，因为这两个词都可以用在 “I _ apples” 的语境中。事实上，词向量最重要的一个研究就是如何构建词语、短语或者文档的向量形式，使得新的向量空间中仍然保留着语义信息。

找寻语义相同的词语不同于计算词语的共现频率。从下述的结果中可以看出，大多数主题提取模型只涉及到词语的共现频率，并没有考虑词语的语义信息，只有 SVD 模型简单涉及到语义信息。

需要注意的是，本文所采用的数据集是根据一定的规则随机生成的，所以下述结果更多的是用于说明不同模型之间的区别：

原文链接： >

在机器学习中，数据通常需要被表示为向量形式以输入模型进行训练。但众所周知，对高维向量进行处理和分析时，会极大地消耗系统资源，甚至产生维度灾难（相关笔记记录于这里）。因此，用一个低维度的向量表示原始高维度的特征就显得尤为重要。

在机器学习领域中，我们对原始数据进行特征提取，有时会得到比较高维的特征向量。在这些向量所处的高维空间中，包含很多的冗余和噪声。我们希望通过降维的方式来寻找数据内部的特性，从而提升特征表达能力，降低训练复杂度。主成分分析（PCA）作为降维中最经典的方法，属于一种 线性、非监督、全局的降维算法 。

1、所谓主成分，就是把原特征进行线性组合后得到新的特征，此特征尽可能多地保留了原特征的方差。

2、设一组参数，记原特征为，新特征为，根据定义，我们要让的方差尽可能大，即这就是我们的目标函数。

3、具体的求解过程要借助特征值分解。

（a）是二维空间中经过中心化的一组数据，我们很容易看出主成分所在的轴（以下称为主轴）的大致方向，即（b）中黄线所处的轴。因为在黄线所处的轴上，数据分布得更为分散，这也意味着数据在这个方向上方差更大。

我们不难引出 PCA的目标，即最大化投影方差，也就是让数据在主轴上投影的方差最大 。对于给定的一组数据点，其中所有向量均为列向量，中心化后的表示为，其中。我们知道，向量内积在几何上表示为第一个向量投影到第二个向量上的长度，因此向量在（单位方向向量）上的投影坐标可以表示为。所以目标是找到一个投影方向，使得在上的投影方差尽可能大。易知，投影之后均值为0（），因此投影后方差可以表示为：

其中其实就是协方差矩阵，我们将其写为，另外，由于是单位向量，因此，因此我们要求解一个最大化问题：

引入拉格朗日乘子并对求导令其等于0，便可以推出，此时：

不难看出，投影后的方差就是协方差矩阵的特征值。我们要找到最大的方差也就是协方差矩阵最大的特征值，最佳投影方向就是最大特征值所对应的特征向量。次佳投影方向位于最佳投影方向的正交空间中，是第二大特征值对应的特征向量，以此类推。至此，我们得到了PCA的求解方法：

1）对样本数据进行中心化处理。

2）求样本协方差矩阵。

3）对协方差矩阵进行特征值分解，将特征值从大到小排列。

4）取特征值前大对应的特征向量通过以下映射将维样本映射到维：

定义降维后的信息占比为：

可以。从线性回归的角度切入，最佳投影方向对应的直线应该使得各点到此直线的距离的平方和最小。关于这个目标和最大方差目标的等价性，我在这里已经说明过了。

从求解直线的思路出发，很容易联想到数学中的线性回归问题，其目标也是求解一个线性函数使得对应直线能够更好地拟合样本点集合。如果我们从这个角度定义PCA的目标，那么问题就会转化为一个回归问题。

数据集中每个点到维超平面的距离为：

其中表示在超平面上的投影向量。若该超平面由个标准正交基构成，则有线代知识可知，可由这组基线性表示：

其中表示在方向上投影的长度。因此实际上就是在这组标准正交基下的坐标。而PCA要优化的目标是：

将上式中每个距离展开：

可以看到，第一项与选取的无关，是一个常数，将代入第二项第三项得到：

因为当时，，因此上式可写为：

于是：

这等价于求解带约束的优化问题：

如果我们对中的个基依次求解，就会发现 和最大方差理论的方法完全等价 。

线性判别分析（Linear Discriminant Analysis, LDA）是一种 有监督学习算法 ，同时经常被用来对数据进行降维。

相比于PCA，LDA可以作为一种有监督的降维算法。在PCA中没有考虑数据的标签（类别），只是把原数据映射到一些方差比较大的方向上而已。

假设用不同的颜色标注两个不同类别的数据，如图所示。根据PCA算法，数据应该映射到方差最大的那个方向，亦即轴方向。但是，两个不同类别的数据就会完全混合在一起，很难区分开。所以，使用PCA算法进行降维后再进行分类的效果会非常差。但是如果使用LDA算法，数据会映射到轴方向。

1、要想降维过程中不损失类别信息，一个简单的想法就是降维后两类样本点之间的距离越远越好，这样才能将两类样本区分开来。

2、在这样的目标下，假设样本在目标超平面上的投影，并考察两类样本投影的均值点，求解一个超平面，使得这两个均值点之间的距离最大。

LDA首先是为了分类服务的，因此只要找到一个投影方向，使得投影后的样本尽可能按照原始类别分开 。我仍不妨从一个简单的二分类问题出发，有两个类别的样本，两类的均值分别为，我们希望投影之后两类之间的距离尽可能大，距离表示为：

和表示两类中心在方向上的投影向量，即，因此需要优化的问题为：

容易发现当方向与一致的时候，该距离达到最大值，例如对图（a）的黄棕两种类别的样本点进行降维时，若按照最大化两类投影中心距离的准则，会将样本点投影到下方的黑线上。但是原本可以被线性划分的两类样本经过投影后有了一定程度的重叠，这显然不能使我们满意。我们希望得到的投影结果如图（b）所示，虽然两类的中心在投影之后的距离有所减小，但确使投影之后样本的可区分性提高了。

仔细观察两种投影方式的区别，可以发现，在图（b）中，投影后的样本点似乎在每一类中分布得更为集中了，用数学化的语言描述就是每类内部的方差比（a）中更小。这就引出了 LDA的中心思想一一最大化类间距离和最小化类内距离 。

在前文中我们已经找到了使得类间距离尽可能大的投影方式，现在只需要同时优化类内方差，使其尽可能小。我们将整个数据集的类内方差定义为各个类分别的方差之和，将目标函数定义为类间距离和类内距离的比值，于是引出我们需要最大化的目标：

真中为单位向量，分别表示两类投影后的方差：

因此可以写成：

定义类间散度矩阵为：

类内散度矩阵为：

则有：

我们要最大化，只需对求偏导，并令导数等于零：

于是得出：

在二分类中和是两个数，令，于是：

即：

从这里我们可以看出，我们最大化的目标对应了一个矩阵的特征值。 于是LDA降维变成了一个求矩阵特征向量的问题。就对应矩阵最大的特征值，而投影方向就是这个特征值对应的特征向量 。

对于二分类这一问题，由于，因此的方向始终与一致，若只考虑的方向而不考虑长度，可得。

1、LDA和PCA最显著的区别就是前者是有监督方法而后者是无监督方法，因此在应用中，对于数据中有标签的应该使用LDA，对于数据中无标签的则使用PCA。

2、数学推导上，两者的区别在于，PCA并未考虑类之间的距离（因为PCA并未用到标签信息），而是仅仅考虑了降维后数据的方差，从这个角度来说，PCA相当于在LDA中将所有数据当成一类去处理的特殊情形。因此我们可以看到两者的数学推导也十分相似，最终目标都归为求解一个矩阵的特征值分解。

首先将LDA拓展到多类高维的情况以和问题PCA的求解对应。假设有个类别，并需要最终将特征降维至维。我们要找到一个维投影超平面使得投影后的样本点满足LDA的目标一一最大化类间距菌和最小化类内距离。

回顾两个散度矩阵，类内散度矩阵在类别数增加时仍满足定义。而之前两类问题的类间散度矩阵在类别增加后就无法按照原始定义。

考虑三类样本的情况，分别表示棕绿黄三类样本的中心，表示这三个中心的均值（也即全部样本的中心），表示第类的类内散度。我们可以定义一个新的矩阵表示全局整体的散度，称为全局散度矩阵：

如果把全局散度定义为类内散度与类间散度之和，即，那么类间散度矩阵可表示为：

其中是第个类别中的样本个数，是总的类别个数。根据LDA的原理，可以将最大化的目标定义为：

剩下的求解过程与之前二分类LDA相同。

至此我们得到了与PCA步骤类似，但具有多个类别标签高维数据的LDA求解方法：

1）计算数据集中每个类别样本的均值向量，及总体均值向量。

2）计算类内散度矩阵和全局散度矩阵，得到类间散度矩阵。

3）对矩阵进行特征值分解，将特征值从大到小排列。

4）取特征值前大的特征值对应的特征向量，通过以下映

射将维样本映射到维：

从PCA和LDA两种降维方法的求解过程来看，它们确实有着很大的相似性，但对应的原理却有所区别。首先从目标出发， PCA选择的是投影后数据方差最大的方向。由于它是无监督的，因此PCA假设方差越大，信息量越多，用主成分来表示原始数据可以去除冗余的维度，达到降维。而LDA选择的是投影后类内方差小、类间方差大的方向，其用到了类别标签信息。为了找到数据中具有判别性的维度，使得原始数据在这些方向上投影后，不同类别尽可能区分开。

举一个简单的例子，在语音识别中，我们想从一段音频中提取出人的语音信号，这时可以使用PCA先进行降维，过滤掉一些固定频率（方差较小）的背景噪声。但如果我们的需求是从这段音频中区分出声音属于哪个人，那么我们应该使用LDA对数据进行降维，使每个人的语音信号具有区分性。

从应用的角度，我们可以掌握一个基本的原则一一 对无监督的任务使用PCA进行降维，对有监督的则应用LDA 。

以上就是关于数据降维方法介绍（六）全部的内容，包括:数据降维方法介绍（六）、短文本主题建模方法、葫芦书第四章——降维等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/10629212.html

数据降维方法介绍（六）

发表评论

评论列表（0条）