【西瓜书学习笔记】第一，二章_随笔

【西瓜书学习笔记】第一，二章

第一章绪论
- 基本术语
第二章模型评估与选择
- 2.1 经验误差与过拟合
- 2.2 评估方法
- 2.3 性能度量
- 代价敏感错误率与代价曲线

这里是本人主要用于记录吃瓜过程中碰到的一些问题，写的会比较简单~

第一章绪论

本章节主要是对机器学习的任务进行简单地介绍，引入了机器学习的基础术语，为之后的学习做好铺垫

基本术语

数据集：数据的集合，用来喂给模型吃
样本/示例：数据集中的一条记录，一个样本也可以叫做一个特征向量
分类任务：数据形式一般为（属性，标记），根据属性预测标记的类型包括二分类和多分类
回归任务：类似分类任务，只是预测的是离散值
聚类任务：数据形式一般为（属性），主要根据属性形成聚类，挖掘隐含规律
泛化能力：训练出来的模型在其他数据集上的适应能力，可以判断模型是否有普适性

第二章模型评估与选择 2.1 经验误差与过拟合

错误率： E=a/m
m：样本总数
a：分类错误数
精度： 1-错误率
过拟合：太过注重训练集，使劲贴合训练集的属性值，可能不是那么重要的属性也要贴合，导致其他集上效果都不好
欠拟合：考虑的属性值太少了，导致效果不好

2.2 评估方法

训练集：用于喂给模型吃
测试集：用于验证模型准确度
留出法：数据集中划分出两个互斥的集合，一般2/3到4/5用于训练，剩余样本用于测试，注意分层取样，即两个集合各种类型比例差不多，可以多次随机抽样求平均达到这一效果
交叉验证法：数据集中划分成k个大小相等的互斥集合，每次取其中一个子集作为测试集，其他集合作为训练集，这样可训练k次。同理也可以随机进行多次划分求平均
留一法：相当于极限的交叉验证法，数据集中每个样本都划分成一份子集，太贵了，不考虑
自助法：有放回地取m次，作为训练集，剩下的作为测试集，大约36.8%的数据用来做测试
调参：调节一些超参数的值

2.3 性能度量

性能度量：衡量模型泛化能力，常用均方误差

查准率与查全率：字面意思，一个衡量查的准，一个衡量查的全，也可叫准确率与召回率
F1：综合查准率与查全率

可以为查准率和查全率加权重

代价敏感错误率与代价曲线

主要为错误赋予非均等代价

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5495813.html

【西瓜书学习笔记】第一，二章

发表评论

评论列表（0条）