吃瓜笔记task01

吃瓜笔记task01,第1张

吃瓜笔记task01 第一章 绪论 1.1 引言

机器学习主要研究的是关于在计算机上从数据中产生“模型”的算法。

1.2 基本概念 1.2.1 一部分名词解释

比较口语化,一些按我自己的理解梳理,如有不足,感谢指出

  • 属性空间(样本空间、输入空间):以样本的属性为坐标轴建立坐标系,可以形成一个多维的空间

  • 特征向量:每个样本都有几个属性,这几个属性可以构成一个描述样本的向量,这样的向量在描述样本的空间内是一一对应的,所以一个样本也叫特征向量

  • 维数:就是样本有几个属性,就对应几个维度,**xij**的意思是数据集中的第i个元素的第j个属性

  • 标记:就是数据集中给样本的一个对应的结果,我觉得可以理解成函数的函数值

  • 标记空间:就是标记组成的空间,可以参考属性空间

  • 分类:预测离散值的学习

  • 回归:预测连续值的回归

  • 聚类:将训练集中的样本分类,分出的各组称为簇(cu)

  • 泛化:把特定的搞成通用的

  • 监督学习:数据集有标记,无监督学习就是没有标记的

  • 版本空间:训练得到了好几个能用的模型,这几个模型组成的就是版本空间

1.2.2 看书时的一些想法
  • 就是通过对已有知识(训练集)的学习,生成一个模型,这个模型可以用来预测这类知识中的其他问题,而且这个模型还可以举一反三,不只是简单的模仿,我们要做的就是生成一个好的模型

  • 为啥P5假设空间的大小是 x * 4 * 4 +1 = 65,感觉是3 * 3 * 3

  • 向量机是啥(一会儿去查)

  • VC维是啥

  • 决策树是啥

  • 奥巴马的竞选团队好流批

  • ILP现在的发展怎样

  • 我没做习题。。。

第二章 模型评估与选择 2.1 部分名词解释
  • 训练误差:在训练集上的误差,新样本上的误差就是泛化误差
  • 过拟合:太过刻意让模型学习训练集,有点过犹不及的感觉,就是太适应具体而无法适应普遍,相对的有欠拟合
  • 模型选择:选择不同的学习算法,配置不同的参数
  • 验证集:模型评估与选择中用于评估测试的数据集
  • 测试集:学得的模型在实际使用中遇到的数据
  • 测试误差:。。。
2.2 常用的评估方法 2.2.1 留出法

直接将数据集划分为两个互斥的 集合,其中一个集合作为训练集,一个作为验证集。两集合要尽量保证样本分布的的一致性,避免产生额外的偏差,常用的采样方式有分层采样。

单次使用留出法得到的数据不够稳定,一般使用要采用多若干次随机划分、重复进行是评估后取平均值作为结果,常见的分法是将大约2/3~4/5的样本用作训练,剩下的用于测试。

2.2.2 交叉验证法

将数据集分为k个大小相似的互斥子集,然后用k-1个子集作为训练集,剩下的一个作为验证集,称为k折交叉验证,k最常见的取值是10,称为10折交叉验证。

k折交叉验证通常要随机采用不同的划分方式p次,最终结果是这pk折交叉验证,常见的有10次10折交叉验证。

k 等于样本个数时,成了交叉验证法的一个特例留一法,留一法使用的训练集比初始数据集只少一个样本,结果往往更加准确,但是比较费电脑,有失有得。

2.2.3 自助法

留出法和交叉验证法可能引入一些因训练样本规模不同而导致的误差,自助法是对数据集进行有放回采样,得到一个有重复的训练集D’,然后D-D’(集合的差运算,A - B = A ∩ cap ∩ ~B)作为验证集 。

m个样本的数据集,m次采集中始终不被采集到的概率为(1-m/1)m,取极限得到0.368,也就是有大约1/3的样本在验证集*D-D’*中。

自助法在数据集较小、难以有效划分训练/验证集是很有用,产生的多个不同训练集对集成学习有很大好处,但是*产生的数据集改变了出事数据集的分布,此处有一个疑问,放到后面了。

2.2.4 性能度量
  • 错误率:分类错误的样本数占样本总数的比例
  • 精度:分类正确的样本数占样本总数的比例,精度 = 1 - 错误率
  • 查准率:也叫准确率,预测正确的样本占预测为真的样本总数的比例
  • 查全率:也叫召回率,预测正确的样本占真实为真的总数的比例,查准率与查全率是一对相互矛盾的度量,查准率高就要少选一些,而少选必然导致有更多的真被漏选(好绕呀,我要晕了)
  • P-R曲线:把样本按照是正例的的可能性降序,按顺序逐个计算查全率、查准率,以查准率为纵坐标,查全率为横坐标作图,得到的曲线
  • 平衡点:当查全率和查准率相等时的点,可以简单度量模型的性能
  • F1:一个度量性能的值,我也不知道为啥他可以度量,相应的有宏F1和微F1
2.3 看书时的一些想法
  • NP难是啥
  • 把训练出的结果取平均值怎么去,训练出的模型是一个数吗,好像是调节一些东西
  • 留出法和交叉验证法改变了数据集的分布是怎么改的
  • 数据集的分布是啥,好像数据集都是数字,就算是图片也是要转化成结构化的数字,这样的话就可以分布了
  • 集合的差运算,A - B = A ∩ cap ∩ ~B
  • F1那里可以看懂公式,但是不知道为啥这个东西可以衡量魔性的好坏
  • 我又没做习题。。。好忙啊

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5521018.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-13
下一篇 2022-12-13

发表评论

登录后才能评论

评论列表(0条)

保存