【西瓜书学习笔记】第一,二章

【西瓜书学习笔记】第一,二章,第1张

【西瓜书学习笔记】第一,二章

【西瓜书学习笔记】第一,二章
  • 第一章 绪论
    • 基本术语
  • 第二章 模型评估与选择
    • 2.1 经验误差与过拟合
    • 2.2 评估方法
    • 2.3 性能度量
    • 代价敏感错误率与代价曲线

这里是本人主要用于记录吃瓜过程中碰到的一些问题,写的会比较简单~

第一章 绪论

本章节主要是对机器学习的任务进行简单地介绍,引入了机器学习的基础术语,为之后的学习做好铺垫

基本术语

数据集: 数据的集合,用来喂给模型
样本/示例: 数据集中的一条记录,一个样本也可以叫做一个特征向量
分类任务: 数据形式一般为(属性,标记),根据属性预测标记的类型包括二分类和多分类
回归任务: 类似分类任务,只是预测的是离散值
聚类任务: 数据形式一般为(属性),主要根据属性形成聚类,挖掘隐含规律
泛化能力: 训练出来的模型在其他数据集上的适应能力,可以判断模型是否有普适性

第二章 模型评估与选择 2.1 经验误差与过拟合

错误率: E=a/m
m:样本总数
a:分类错误数
精度: 1-错误率
过拟合: 太过注重训练集,使劲贴合训练集的属性值,可能不是那么重要的属性也要贴合,导致其他集上效果都不好
欠拟合: 考虑的属性值太少了,导致效果不好

2.2 评估方法

训练集: 用于喂给模型吃
测试集: 用于验证模型准确度
留出法: 数据集中划分出两个互斥的集合,一般2/3到4/5用于训练,剩余样本用于测试,注意分层取样,即两个集合各种类型比例差不多,可以多次随机抽样求平均达到这一效果
交叉验证法: 数据集中划分成k个大小相等的互斥集合,每次取其中一个子集作为测试集,其他集合作为训练集,这样可训练k次。同理也可以随机进行多次划分求平均
留一法: 相当于极限的交叉验证法,数据集中每个样本都划分成一份子集,太贵了,不考虑
自助法: 有放回地取m次,作为训练集,剩下的作为测试集,大约36.8%的数据用来做测试
调参: 调节一些超参数的值

2.3 性能度量

性能度量: 衡量模型泛化能力,常用均方误差

查准率与查全率: 字面意思,一个衡量查的准,一个衡量查的全,也可叫准确率与召回率
F1: 综合查准率与查全率

可以为查准率和查全率加权重

代价敏感错误率与代价曲线

主要为错误赋予非均等代价

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5495813.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-12
下一篇 2022-12-12

发表评论

登录后才能评论

评论列表(0条)

保存