【周志华机器学习】十一、特征选择与稀疏学习_python

文章目录

参考资料
前言
1. 子集搜索与评价
- 1.1 特征选择
- 1.2 特征选择原因
- 1.3 子集搜索与子集评价
- - 1.3.1 子集搜索
  - 1.3.2 子集评价
2. 过滤式选择（Relief）
- 2.1 Relief算法核心
- 2.2 拓展变体：Relief-F算法
3. 包裹式选择（LVW）
4. 嵌入式选择与正则化
- 4.1 L1范数与L2范数理解
5. 稀疏表示与字典学习
6. 压缩感知

参考资料

Machine-learning-learning-notes
LeeML-Notes
ML-NLP

本博客是根据周志华的西瓜书和参考资料1、2、3所做的笔记，主要用于学习，非技术类博客，因此存在大量复制粘贴，请见谅。

如果本篇博客有后记部分，则该部分表示的是在书本原有的基础知识上，进行的知识点的扩充。

前言

对于数据集中的一个对象及组成对象的零件元素：

统计学家常称它们为观测（observation）和变量（variable）；
数据库分析师则称其为记录（record）和字段（field）；
数据挖掘/机器学习学科的研究者则习惯把它们叫做样本/示例（example/instance）和属性/特征（attribute/feature）。

机器学习中特征选择是一个重要的“数据预处理”（data preprocessing）过程，即试图从数据集的所有特征中挑选出与当前学习任务相关的特征子集，接着再利用数据子集来训练学习器；稀疏学习则是围绕着稀疏矩阵的优良性质，来完成相应的学习任务。

1. 子集搜索与评价 1.1 特征选择

我们能用很多属性描述一个西瓜 , 例如色泽、根蒂、敲声、纹理、触感等 , 但有经验的人往往只需看看根蒂、听听敲声就知道是否好瓜 . 换言之 , 对一个学习任务来说 , 给定属性集 , 其中有些属性可能很关键、很有用 , 另一些属性则可能没什么用 . 我们将属性称为 “ 特征 “(feature), 对当前学习任务有用的属性称为 “ 相关特征 “(relevant feature)、没什么用的属性称为 “ 无关特征 “(irrelevant feature). 从给定的特征集合中选择出相关特征子集的过程 , 称
为 “ 特征选择 “(feature selection),

1.2 特征选择原因

特征选择是一个重要的 “ 数据预处理 “(data preprocessing) 过程 , 在现实机器学习任务中 , 获得数据之后通常先进行特征选择 , 此后再训练学习器 . 那么 , 为什么要进行特征选择呢 ?

首先 , 我们在现实任务中经常会遇到维数灾难问题 , 这是由于属性过多而造成的 , 若能从中选择出重要的特征 , 使得后续学习过程仅需在一部分特征上构建模型 , 则维数灾难问题会大为减轻 . 从这个意义上说 ,特征选择与第 10 章介绍的降维有相似的动机 ; 事实上 , 它们是处理高维数据的两大主流技术 .

第二个原因是 , 去除不相关特征往往会降低学习任务的难度 , 这就像侦探破案一样 , 若将纷繁复杂的因素抽丝剥茧 , 只留下关键因素 , 则真相往往更易看清 .

1.3 子集搜索与子集评价

特征选择是直接剔除那些与学习任务无关的属性而选择出最佳特征子集。

若直接遍历所有特征子集，显然当维数过多时遭遇指数爆炸就行不通了；若采取从候选特征子集中不断迭代生成更优候选子集的方法，则时间复杂度大大减小。

这时就涉及到了两个关键环节：1.如何生成候选子集；2.如何评价候选子集的好坏

1.3.1 子集搜索

前向搜索：初始将每个特征当做一个候选特征子集，然后从当前所有的候选子集中选择出最佳的特征子集；接着在上一轮选出的特征子集中添加一个新的特征，同样地选出最佳特征子集；最后直至选不出比上一轮更好的特征子集。

后向搜索：初始将所有特征作为一个候选特征子集；接着尝试去掉上一轮特征子集中的一个特征并选出当前最优的特征子集；最后直到选不出比上一轮更好的特征子集。

双向搜索：将前向搜索与后向搜索结合起来，即在每一轮中既有添加 *** 作也有剔除 *** 作。

每一轮逐渐增加选定相关特征 ( 这些特征在后续轮中将确定不会被去除 )、同时减少无关特征。

显然 , 上述策略都是贪心的 , 因为它们仅考虑了使本轮选定集最优。

1.3.2 子集评价

将特征子集搜索机制与子集评价机制相结合 , 即可得到特征选择方法 . 例如将前向搜索与信息熵相结合 , 这显然与决策树算法非常相似 . 事实上 , 决策树可用于特征选择 , 树结点的划分属性所组成的集合就是选择出的特征子集 . 其他的特征选择方法未必像决策树特征选择这么明显 , 但它们在本质上都是显式或隐式地结合了某种 ( 或多种 ) 子集搜索机制和子集评价机制 .

常见的特征选择方法大致可分为三类 : 过滤式 (filter)、包裹式 (wrapper) 和嵌入式(embedding).

2. 过滤式选择（Relief）

过滤式方法先对数据集进行特征选择 , 然后再训练学习器 , 特征选择过程与后续学习器无关 . 这相当于先用特征选择过程对初始特征进行 “ 过滤 “, 再用过滤后的特征来训练模型 .

Relief (Relevant Features)是一种著名的过滤式特征选择方法。

它使用一个“相关统计量”来度量特征的重要性，该统计量是一个向量，其中每个分量代表着相应特征的重要性，因此我们最终可以根据这个统计量各个分量的大小来选择出合适的特征子集。

2.1 Relief算法核心

Relief算法的核心在于如何计算出该相关统计量。

直观上理解：对于猜中近邻，两者 j j j属性的距离越小越好，对于猜错近邻， j j j属性距离越大越好。

更一般地，若 x i x_i xi为离散属性， d i f f diff diff取汉明距离，即相同取0，不同取1；若 x i x_i xi为连续属性，则 d i f f diff diff为曼哈顿距离，即取差的绝对值。

分别计算每个分量，最终取平均便得到了整个相关统计量。

2.2 拓展变体：Relief-F算法

标准的Relief算法只用于二分类问题，后续产生的拓展变体Relief-F则解决了多分类问题。

3. 包裹式选择（LVW）

与过滤式选择不同的是，包裹式选择将后续的学习器也考虑进来作为特征选择的评价准则。

因此包裹式选择可以看作是为某种学习器量身定做的特征选择方法，由于在每一轮迭代中，包裹式选择都需要训练学习器，因此在获得较好性能的同时也产生了较大的开销。

LVW（Las Vegas Wrapper）是一种经典的包裹式特征选择方法。

它在拉斯维加斯方法 (Las Vegas method) 框架下使用随机策略来进行子集搜索 , 并以最终分类器的误差为特征子集评价准则 . 算法描述如图 11.1 所示 .

图 11.1 算法第 8 行是通过在数据集 D 上 , 使用交叉验证法来估计学习器（学习算法）的误差 , 注意这个误差是在仅考虑特征子集 A’ 时得到的 , 即特征子集 A’ 上的误差 , 若它比当前特征子集 A 上的误差更小 , 或误差相当但 A’ 中包含的特征数更少 , 则将 A’ 保留下来 .

注意 , 由于 LVW 算法中特征子集搜索采用了随机策略 , 而每次特征子集评价都需训练学习器 , 计算开销很大 , 因此算法设置了停止条件控制参数T. 然而 , 整个 LVW 算法是基于拉斯维加斯方法框架 , 若初始特征数很多 ( 即|A| 很大 )、 T 设置较大 , 则算法可能运行很长时间都达不到停止条件 . 换言之 , 若有运行时间限制，则有可能给不出解。

蒙特卡罗算法：采样越多，越近似最优解，一定会给出解，但给出的解不一定是正确解；
拉斯维加斯算法：采样越多，越有机会找到最优解，不一定会给出解，且给出的解一定是正确解。

举个例子，假如筐里有100个苹果，让我每次闭眼拿1个，挑出最大的。

于是我随机拿1个，再随机拿1个跟它比，留下大的，再随机拿1个……我每拿一次，留下的苹果都至少不比上次的小。

拿的次数越多，挑出的苹果就越大，但我除非拿100次，否则无法肯定挑出了最大的。

这个挑苹果的算法，就属于蒙特卡罗算法——尽量找较好的，但不保证是最好的。

而拉斯维加斯算法，则是另一种情况。

假如有一把锁，给我100把钥匙，只有1把是对的。

于是我每次随机拿1把钥匙去试，打不开就再换1把。

我试的次数越多，打开（正确解）的机会就越大，但在打开之前，那些错的钥匙都是没有用的。

这个试钥匙的算法，就是拉斯维加斯的——尽量找最好的，但不保证能找到。

4. 嵌入式选择与正则化

过滤式中特征选择与后续学习器完全分离，包裹式则是使用学习器作为特征选择的评价准则；

嵌入式是一种将特征选择与学习器训练完全融合的特征选择方法，即将特征选择融入学习器的优化过程中。

经验风险指的是模型与训练数据的契合度，结构风险则是模型的复杂程度
机器学习的核心任务就是：在模型简单的基础上保证模型的契合度。

4.1 L1范数与L2范数理解

L1 范数和 L2 范数正则化都有助于降低过拟合风险 , 但前者还会带来一个额外的好处 : 它比后者更易于获得 “ 稀疏 “(sparse) 解 , 即它求得的 w 会有更少的非零分量 .

总的来说：L1范数会趋向产生少量的特征，其他特征的权值都是0；L2会选择更多的特征，这些特征的权值都会接近于0。

这样L1范数在特征选择上就十分有用，而L2范数则具备较强的控制过拟合能力。

可以从下面两个方面来理解：

（2）空间限制：L1范数与L2范数都试图在最小化损失函数的同时，让权值W也尽可能地小。

我们可以将原优化问题看做为下面的问题，即让后面的规则则都小于某个阈值。

这样从图中可以看出：采用 L1 范数时平方误差项等值线与正则化项等值线的交点常出现在坐标轻上 , 即 w1或w2 为 0, 而在采用 L2 范数时 , 两者的交点常出现在某个象限中 , 即w1或w2 均非 0; 换言之 , 采用 L1 范数比 L2 范数更易于得到稀疏解 .

5. 稀疏表示与字典学习

当样本数据是一个稀疏矩阵时，对学习任务来说会有不少的好处，例如很多问题变得线性可分，储存更为高效等。

这便是稀疏表示与字典学习的基本出发点。

稀疏矩阵即矩阵的每一行/列中都包含了大量的零元素，且这些零元素没有出现在同一行/列，对于一个给定的稠密矩阵，若我们能通过某种方法找到其合适的稀疏表示，则可以使得学习任务更加简单高效，我们称之为稀疏编码（sparse coding）或字典学习（dictionary learning）。

可参用变量交替优化的策略来求解上式。

6. 压缩感知

在现实任务中 , 我们常希望根据部分信息来恢复全部信息 . 例如在数据通讯中要将模拟信号转换为数字信号 , 根据奈奎斯特 (Nyquist) 采样定理 , 令采样频率达到模拟信号最高频率的两倍 , 则采样后的数字信号就保留了模拟信号的全部信息 ; 换言之 , 由此获得的数字信号能精确重构原模拟信号 . 然而 , 为了便于传输、存储 , 在实践中人们通常对采样的数字信号进行压缩 , 这有可能损失一些信息 , 而在信号传输过程中 , 由于信道出现丢包等问题 , 又可能损失部分信息 . 那么 , 接收方基于收到的信号 , 能否精确地重构出原信号呢 ? 压缩感知 (compressed sensing) 为解决此类问题提供了新的思路 .

压缩感知与特征选择、稀疏表示不同的是：它关注的是通过欠采样信息来恢复全部信息。

在实际问题中，为了方便传输和存储，我们一般将数字信息进行压缩，这样就有可能损失部分信息，如何根据已有的信息来重构出全部信号，这便是压缩感知的来历，压缩感知的前提是已知的信息具有稀疏表示。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/578209.html

【周志华机器学习】十一、特征选择与稀疏学习

发表评论

评论列表（0条）