NLP入门|《统计学习方法》学习(一)

NLP入门|《统计学习方法》学习(一),第1张

NLP入门|《统计学习方法》学习(一) 导读

近期学习了《统计学习方法》一书的第一章,有几个值得关注的知识点在此mark一下。
声明:以下截图来自书本以及b站课程(up主:简博士)。

一、统计学习的分类 1. 监督学习

监督学习的应用:

分类问题、标注问题和回归问题。

2. 无监督学习

3. 强化学习

二、监督学习的三要素——模型、策略、算法 1. 策略

1)损失函数:度量模型一次预测的好坏,记作L(Y,f(X));
2)风险函数:度量平均意义下模型预测的好坏,即对损失函数求期望;
3)经验函数:模型f(X)关于训练集的平均损失。

2. 损失函数

1)0-1损失函数:针对分类问题【输出非连续变量】
2)平方损失函数/绝对损失函数:针对回归问题【输入输出为连续变量】
3)对数损失函数:针对概率模型

3. 监督学习的两个基本策略

1)经验风险最小化: 是在样本容量N足够大的条件下,若N不够大则可能过拟合。

2)结构风险最小化: 平衡了经验风险和模型复杂度。

三、生成模型和判别模型 1. 生成模型 定义:

由数据学习联合分布概率P(X,Y),然后求出P(Y|X)作为预测模型,即生成模型。

注意:

输入和输出变量均为随机变量

典型的生成模型:

朴素贝叶斯法、隐马尔可夫模型。

2. 判别模型 定义:

由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型,即判别模型。

注意:

输入和输出变量不需要为随机变量

典型的生成模型:

k近邻法、感知机、决策树等。

四、总结

《统计学习方法》第二版这本书的第一章相是提纲挈领的一章,主要是搭建起了监督学习和无监督学习的框架,并介绍了其中可能用到的一些方法和工具。
第一章学习完结撒花,但是总的来说学习速度较慢,效率较低,所以希望可以再接再厉,加快一些速率!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5720479.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-18
下一篇 2022-12-18

发表评论

登录后才能评论

评论列表(0条)

保存