什么是方差?标准偏差?

什么是方差?标准偏差?,第1张

方差是无穷多次测量的测量值与其期望之差平方和的算术平均值,用 表示。因为方差使用不方便,所以常用标准偏差表征测量值的分散程度。用公式表示为:
标准偏差是方差的正平方根,简称标准差(又称总体标准偏差)。但是 是以无穷多次测量情况下定义的,实际情况下不可能测量无穷多次,因此标准偏差 是一个理想的理论值,计算公式也是个理论公式,是无法求到的。

欠拟合:偏差 > 方差,对应简单模型

过拟合:偏差 < 方差,对应复杂模型
正则系数过高会导致欠拟合 高偏差、低方差
其实,模型在训练集上的 误差 来源主要来自于 偏差 (和1比较),在测试集上 误差 来源主要来自于 方差 (和训练集比较)。

上图表示,如果一个模型在训练集上正确率为 80%,测试集上正确率为 79% ,则模型欠拟合,其中 20% 的误差来自于偏差,1% 的误差来自于方差。如果一个模型在训练集上正确率为 99%,测试集上正确率为 80% ,则模型过拟合,其中 1% 的误差来自于偏差,19% 的误差来自于方差。

上图中存在两点A、B,其中A位于训练次数低的位置,训练集误差过高,该点为欠拟合(高偏差,低方差);介于AB之前的一段区域误差较低并近于平缓;B点随着训练次数增加,训练集的误差仍在下降,但测试集随训练次数的增加出现上升趋势,则该点为过拟合(高方差)。(在训练的最初,训练次数过少等原因,误差较高,易出现欠拟合,随着训练次数的增加,训练集的误差在不断下降,到达一个平衡点的时候,之后测试集的误差开始升高,出现过拟合)

模型复杂度↑ \uarr↑的变化
开始时,模型往往是欠拟合的,也因此才有了优化的空间。
过程:不断的调整算法,使得模型的性能更好。
优化到了一定程度,就需要解决过拟合问题了。

标准差,也称均方差是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。标准差越高,表示实验数据越离散,也就是说越不精确
反之,标准差越低,代表实验的数据越精确。
方差:是各个数据与平均数之差的平方的平均数,即
s^2=1/n[(x1-x_)^2+(x2-x_)^2++(xn-x_)^2]
通俗点讲,就是和中心偏离的程度!用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)。
在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。
误差:测量结果与被测量真值之差。
标准差和方差是数学概念,误差是物理概念。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/13406340.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-30
下一篇 2023-07-30

发表评论

登录后才能评论

评论列表(0条)

保存