- 1 什么是特征工程?
- 2 数据预处理和特征处理
- 2.1 数据预处理
- 2.2 特征处理
- 3 特征降维
- 3.0 什么是特征降维?
- 3.1 特征选择
- 3.2 线性降维
- 3.2.1 主成分分析法(PCA)
- 3.2.2 线性判别分析法(LDA)
答:从原数据提取特征(能很好的描述数据)的过程,并且利用特征建立的模型可在未知数据上的性能表现达到最优。
业界流传着这样一句话:“数据和特征决定机器学习的上线,而模型和算法只是逼近这个上限而已。” 换句话说,特征越好、灵活性越强,构建的模型越简单、性能越出色。
简单来说,特征工程的处理一般包括:
· 特征提取
· 特征获取
· 特征处理
· 特征选择(特征较多时才用)
· 特征监控
2.2 特征处理
- 数据采集
采集数据前,不如先清楚哪些数据对最后的预测结果使用帮助的,是否可采集到,
在线上实时计算时数据获取是否快捷- 数据清洗
除去“脏”的数据,例如,某些商品的刷单数据- 数据采样
数据在采集、清洗过后、正负样本是不均匀的,故需进行数据采样
方法有:随机采样,分层采样
- 标准化:
将特征转换为标准正态分布
- 归一化:
将特征转换到同一纲量下,把数据映射到 [0,1], 或者 [a,b] 区间内
注:会改变原始距离、分布、和信息
- 定量特征二值化:
设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0
- 缺失值处理:
当数据存在缺失值时,用Pandas读取后特征均为NaN,表示数据缺失
可进行填充,均值替换等
- 数据转换:
3 特征降维 3.0 什么是特征降维?常见的有:多项式、指数函数、对数函数的转换
3.1 特征选择特征降维指的是:采用某种映射方法,将高维向量空间的数据点映射到低维的空间中。
而在原始的高维空间中,数据存在冗余信息及噪音信息,会对模型识别造成误差,降低准准确率。
常用的方法有:特征选择,线性降维。
3.2 线性降维 3.2.1 主成分分析法(PCA)方法:
* 过滤法:按照相关性或者发散性对各个特征进行评分,通过设定阈值或者选择阈值的个数来选择特征
* 包装法:根据目标函数每次选择若干个特征
* 嵌入法:使用算法和模型训练得到各个特征的权值系数,从而选择特征
3.2.2 线性判别分析法(LDA)通过某种线性投影,将高维的数据映射到低维的空间中,并期望方差最大,从而达到使用
较小的数据维度保留较多的原始数据点特征的效果。(无监督的线性降维算法)
使降维后的数据点尽可能地容易被区分(有监督的线性降维算法)
···
注:以上是关于特征工程的部分理论知识的介绍(本人逐字敲的,有什么想说滴评论区尽管提或私聊),具体的代码讲解稍后更新,热别欢迎友友们一起交流学习。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)