- 第一章 绪论
- 基本术语
- 第二章 模型评估与选择
- 2.1 经验误差与过拟合
- 2.2 评估方法
- 2.3 性能度量
- 代价敏感错误率与代价曲线
这里是本人主要用于记录吃瓜过程中碰到的一些问题,写的会比较简单~ 第一章 绪论
本章节主要是对机器学习的任务进行简单地介绍,引入了机器学习的基础术语,为之后的学习做好铺垫
基本术语数据集: 数据的集合,用来喂给模型吃
样本/示例: 数据集中的一条记录,一个样本也可以叫做一个特征向量
分类任务: 数据形式一般为(属性,标记),根据属性预测标记的类型包括二分类和多分类
回归任务: 类似分类任务,只是预测的是离散值
聚类任务: 数据形式一般为(属性),主要根据属性形成聚类,挖掘隐含规律
泛化能力: 训练出来的模型在其他数据集上的适应能力,可以判断模型是否有普适性
错误率: E=a/m
m:样本总数
a:分类错误数
精度: 1-错误率
过拟合: 太过注重训练集,使劲贴合训练集的属性值,可能不是那么重要的属性也要贴合,导致其他集上效果都不好
欠拟合: 考虑的属性值太少了,导致效果不好
训练集: 用于喂给模型吃
测试集: 用于验证模型准确度
留出法: 数据集中划分出两个互斥的集合,一般2/3到4/5用于训练,剩余样本用于测试,注意分层取样,即两个集合各种类型比例差不多,可以多次随机抽样求平均达到这一效果
交叉验证法: 数据集中划分成k个大小相等的互斥集合,每次取其中一个子集作为测试集,其他集合作为训练集,这样可训练k次。同理也可以随机进行多次划分求平均
留一法: 相当于极限的交叉验证法,数据集中每个样本都划分成一份子集,太贵了,不考虑
自助法: 有放回地取m次,作为训练集,剩下的作为测试集,大约36.8%的数据用来做测试
调参: 调节一些超参数的值
性能度量: 衡量模型泛化能力,常用均方误差
查准率与查全率: 字面意思,一个衡量查的准,一个衡量查的全,也可叫准确率与召回率
F1: 综合查准率与查全率
可以为查准率和查全率加权重
主要为错误赋予非均等代价
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)