- 一、基础知识
- 二、PAC学习
- 三、有限假设空间
- 1.可分情形
- 2.不可分情形
- 四、VC维
- 五、Rademacher复杂度
- 六、稳定性
一、基础知识
- 计算学习理论(computational learning theory) 研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
给定样例集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x m , y m ) , } , x i ∈ X D = \{(\pmb x_1,y_1),(\pmb x_2,y_2),\cdots,(\pmb x_m,y_m),\},\pmb x_i\in \mathcal X D={(xxx1,y1),(xxx2,y2),⋯,(xxxm,ym),},xxxi∈X,本章主要讨论二分类问题,若无特别说明, y i ∈ Y = { − 1 , + 1 } y_i \in \mathcal Y = \{-1,+1\} yi∈Y={−1,+1}。假定 X \mathcal X X中的所有样本服从一个隐含未知的分布 D \mathcal D D,D中所有样本都是独立地从这个分布上采样而得,即独立同分布(independent and identically distributed,简称 i . i . d i.i.d i.i.d)样本。
令h为从 X \mathcal X X到 Y \mathcal Y Y的一个映射,其泛化误差为
E ( h ; D ) = P x ∼ D ( h ( x ) ≠ ) E(h;\mathcal D) = P_{x \sim \mathcal D}(h(\pmb x) \ne ) E(h;D)=Px∼D(h(xxx)=)
h在D上的经验误差为
E ^ ( h ; D ) = 1 m ∑ i = 1 m Π ( h ( x i ) ≠ y i ) \hat E(h;D) = \frac{1}{m}\sum_{i=1}^m \Pi(h(\pmb x_i)\ne y_i) E^(h;D)=m1i=1∑mΠ(h(xxxi)=yi)
由于D是 D \mathcal D D的独立同分布采样,因此h的经验误差的期望等于其泛化误差。将 E ( h ; D ) E(h;\mathcal D) E(h;D)和 E ^ ( h ; D ) \hat E(h;D) E^(h;D)分别简记为 E ( h ) E(h) E(h)和 E ^ ( h ) \hat E(h) E^(h)。令 ϵ \epsilon ϵ为 E ( h ) E(h) E(h)的上限,即 E ( h ) ≤ ϵ E(h)\le\epsilon E(h)≤ϵ;通常用 ϵ \epsilon ϵ表示预先设定的学得模型所应满足的误差要求,亦称“误差参数”
本章后面部分将研究经验误差与泛化误差之间的逼近程度。若h在数据集D上的经验误差为0,则称h与D一致,否则称为其与D不一致。对任意两个映射 h 1 , h 2 ∈ X → Y h_1,h_2 \in \mathcal X\rightarrow\mathcal Y h1,h2∈X→Y,可通过其“不合”(disagreement)来度量它们之间的差别:
d ( h 1 , h 2 ) = P x ∼ D ( h 1 ( x ) ≠ h 2 ( x ) ) d(h_1,h_2) = P_{x\sim \mathcal D}(h_1(\pmb x)\ne h_2(\pmb x)) d(h1,h2)=Px∼D(h1(xxx)=h2(xxx))
会用到几个常用不等式: - Jensen不等式:对任意凸函数
f
(
x
)
f(x)
f(x),有
f ( E ( x ) ) ≤ E ( f ( x ) ) f(\mathbb E(x))\le \mathbb E(f(x)) f(E(x))≤E(f(x)) - Hoeffding不等式:若
x
1
,
x
2
,
⋯
,
x
m
x_1,x_2,\cdots,x_m
x1,x2,⋯,xm为m个独立随机变量,且满足
0
≤
x
i
≤
1
0\le x_i\le 1
0≤xi≤1,则对任意
ϵ
>
0
\epsilon >0
ϵ>0,有
P ( 1 m ∑ i = 1 m x i − 1 m ∑ i = 1 m E ( x i ) ≥ ϵ ) ≤ exp ( − 2 m ϵ 2 ) , P ( ∣ 1 m ∑ i = 1 m x i − 1 m ∑ i = 1 m E ( x i ) ∣ ≥ ϵ ) ≤ 2 exp ( − 2 m ϵ 2 ) , \begin{aligned} & P\Bigg(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb E(x_i)\ge\epsilon\Bigg)\le \operatorname{exp}(-2m\epsilon^2),\ & P\Bigg(\Bigg|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb E(x_i)\Bigg|\ge\epsilon\Bigg)\le 2\operatorname{exp}(-2m\epsilon^2),\ \end{aligned} P(m1i=1∑mxi−m1i=1∑mE(xi)≥ϵ)≤exp(−2mϵ2),P(∣∣∣∣∣m1i=1∑mxi−m1i=1∑mE(xi)∣∣∣∣∣≥ϵ)≤2exp(−2mϵ2), - McDiarmid不等式:若
x
1
,
x
2
,
⋯
,
x
m
x_1,x_2,\cdots,x_m
x1,x2,⋯,xm为m个独立随机变量,且满足
0
≤
i
≤
m
0\le i\le m
0≤i≤m,函数
f
f
f满足
sup x 1 , x 2 , ⋯ , x m , x i ′ ∣ f ( x 1 , x 2 , ⋯ , x m ) − f ( x 1 , ⋯ , x i − 1 , x i ′ , x i + 1 , ⋯ , x m ) ∣ ≤ c i , \underset{x_1,x_2,\cdots,x_m,x_i'}{\operatorname{sup}}|f(x_1,x_2,\cdots,x_m)-f(x_1,\cdots,x_{i-1},x_i',x_{i+1},\cdots,x_{m})|\le c_i, x1,x2,⋯,xm,xi′sup∣f(x1,x2,⋯,xm)−f(x1,⋯,xi−1,xi′,xi+1,⋯,xm)∣≤ci,
则对任意 ϵ > 0 \epsilon>0 ϵ>0,有
P ( f ( x 1 , ⋯ , x m ) − E ( f ( x 1 , ⋯ , x m ) ) ≥ ϵ ) ≤ exp ( − 2 ϵ 2 ∑ i c i 2 ) , P ( ∣ f ( x 1 , ⋯ , x m ) − E ( f ( x 1 , ⋯ , x m ) ) ∣ ≥ ϵ ) ≤ 2 exp ( − 2 ϵ 2 ∑ i c i 2 ) , \begin{aligned} &P(f(x_1,\cdots,x_m) - \mathbb E(f(x_1,\cdots,x_m))\ge \epsilon)\le \operatorname{exp}\bigg(\frac{-2\epsilon^2}{\sum_i c_i^2}\bigg),\ &P(|f(x_1,\cdots,x_m) - \mathbb E(f(x_1,\cdots,x_m))|\ge \epsilon)\le 2\operatorname{exp}\bigg(\frac{-2\epsilon^2}{\sum_i c_i^2}\bigg),\ \end{aligned} P(f(x1,⋯,xm)−E(f(x1,⋯,xm))≥ϵ)≤exp(∑ici2−2ϵ2),P(∣f(x1,⋯,xm)−E(f(x1,⋯,xm))∣≥ϵ)≤2exp(∑ici2−2ϵ2),
- 计算学习理论中最基本的是 概率近似正确(Probably Approximately Correct,简称PAC) 学习理论。
令c表示 “概念”(concept),这是从样本空间
X
\mathcal X
X到标记空间
y
\mathcal y
y的映射,它决定示例
x
\pmb x
xxx的真实标记y,若对任何样例
(
x
,
y
)
(\pmb x,y)
(xxx,y)有
c
(
x
)
=
y
c(\pmb x) = y
c(xxx)=y成立,则称
c
c
c为目标概念;所有希望学得的目标概念所构成的集合称为 “概念类”(concept class),用符号
C
\mathcal C
C表示。
给定学习算法
L
\mathfrak{L}
L,它所考虑的所有可能概念的集合称为 “假设空间”(hypothesis space),用符号
H
\mathcal H
H表示。由于学习算法事先并不知道概念类的真实存在,因此
H
\mathcal H
H和
C
\mathcal C
C通常是不同的,学习算法会自认为可能的目标概念类集中起来构成
H
\mathcal H
H,对
h
∈
H
h\in \mathcal H
h∈H,由于并不确定它是否真实目标概念,因此称为 “假设”(hypothesis) 。
若目标概念
c
∈
H
c\in \mathcal H
c∈H,则
H
\mathcal H
H中存在假设能将所有示例按与真实标记一致的方式完全分开,称该问题对学习算法
L
\mathfrak{L}
L是 “可分的”(separable),亦称 “一致的”(consistent);若
c
∉
H
c\notin \mathcal H
c∈/H,则
H
\mathcal H
H中不存在任何假设能将所有示例完全正确分开,称该问题对学习算法
L
\mathfrak{L}
L是 “不可分的”(non-separable),亦称 “不一致的”(non-consistent)
给定训练集D,我们希望基于学习算法
L
\mathfrak{L}
L学得的模型所对应的假设h尽可能接近目标概念c。由于机器学习过程收到很多因素的制约,例如获得的训练集D往往仅包含有限数量的样例,通常会存在一些在D上“等效”的假设,学习算法对它们无法区别;再如,从分布
D
\mathcal D
D采样得到D的过程有一定偶然性,可以想象,即便对同样大小的不同训练集,学得结果也可能有所不同。因此,是希望以比较大的把握学得比较好的模型,也就是说,以较大的概率学得误差满足预设上限的模型;这就是“概率”“近似正确”的含义。形式化地说,令
δ
\delta
δ表示置信度,可定义:
- PAC辨别(PAC Identify) :对
0
<
ϵ
,
δ
<
1
0<\epsilon,\delta<1
0<ϵ,δ<1,所有
c
∈
C
c\in \mathcal C
c∈C和分布
D
\mathcal D
D,若存在学习算法
L
\mathfrak{L}
L,其输出假设
h
∈
H
h\in \mathcal H
h∈H满足
P ( E ( h ) ≤ ϵ ) ≥ 1 − δ P(E(h)\le \epsilon) \ge 1-\delta P(E(h)≤ϵ)≥1−δ
则称学习算法 L \mathfrak{L} L能从假设空间 H \mathcal H H中PAC辨识概念类 C \mathcal C C.
这样的学习算法 L \mathfrak{L} L能以较大的概率(至少 1 − δ 1-\delta 1−δ)学得目标概念c的近似(误差最多为 ϵ \epsilon ϵ)。在此基础上可定义
- PAC可学习(PAC Learning) :令m表示从分布 D \mathcal D D中独立同分布采样得到的样例数目, 0 < ϵ , δ < 1 0<\epsilon,\delta<1 0<ϵ,δ<1,对所有分布 D \mathcal D D,若存在学习算法 L \mathfrak{L} L和多项式函数 p o l y ( ⋅ , ⋅ , ⋅ , ⋅ ) poly(\cdot,\cdot,\cdot,\cdot) poly(⋅,⋅,⋅,⋅),使得对于任何 m ≥ p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m\ge poly(1/\epsilon,1/\delta,size(\pmb x),size(c)) m≥poly(1/ϵ,1/δ,size(xxx),size(c)), L \mathfrak{L} L能从假设空间 H \mathcal H H中PAC辨识概念类 C \mathcal C C,则称概念类 C \mathcal C C对假设空间 H \mathcal H H而言PAC可学习的,有时也简称概念类 C \mathcal C C是PAC可学习的
对计算机算法来说,必须要考虑时间复杂度,于是:
- PAC学习算法(PAC Learning Algorithm):若学习算法 L \mathfrak{L} L使得概念类 C \mathcal C C为PAC可学习的,且 L \mathfrak{L} L运行时间也是多项式函数 p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) poly(1/\epsilon,1/\delta,size(\pmb x),size(c)) poly(1/ϵ,1/δ,size(xxx),size(c)),则称概念类 C \mathcal C C是 高效PAC可学习(efficiently PAC learnable) 的,称 L \mathfrak{L} L为概念类 C \mathcal C C的PAC学习算法
假定学习算法 L \mathfrak{L} L处理每个样本的时间为常数,则 L \mathfrak{L} L的时间复杂度等价于样本复杂度。于是,对算法时间复杂度的关心就转化为对样本复杂度的关心。
- 样本复杂度(Sample Complexity) :满足PAC学习算法 L \mathfrak{L} L所需的 m ≥ p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m\ge poly(1/\epsilon,1/\delta,size(\pmb x),size(c)) m≥poly(1/ϵ,1/δ,size(xxx),size(c))中最小的m,称为学习算法 L \mathfrak{L} L的样本复杂度。
显然,PAC学习给出了一个抽象地刻画机器学习能力的框架,基于这个框架能对很多重要问题进行探讨,例如研究某任务在什么样的条件下可学得较好的模型?某算法在什么样的条件下可进行有效的学习?需多少训练样例才能获得较好的模型?
PAC学习中一个关键因素是假设空间
H
\mathcal H
H的复杂度。
H
\mathcal H
H包含了学习算法
L
\mathfrak{L}
L所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即
H
=
C
\mathcal H = \mathcal C
H=C,这称为“恰PAC学习”(Properly PAC learnable);直观地看,这意味着学习算法的能力与学习任务“恰好匹配”。然而,这种让所有候选假设都是来自概念类的要求看似合理,但却并不实际,因为在现实应用中对概念类
C
\mathcal C
C通常一无所知,更别说获得一个假设空间与概念类恰好相同的学习算法。显然更重的是研究假设空间与概念类不同的情形,即
H
≠
C
\mathcal H\ne \mathcal C
H=C。一般而言
H
\mathcal H
H越大,其包含任意目标概念的可能性越大,但从中找到某个具体概念的难度越大。
∣
H
∣
|\mathcal H|
∣H∣有限时,称
H
\mathcal H
H为“有限假设空间”,否则称为“无限假设空间”
可分情形意味着目标概念c属于假设空间
H
\mathcal H
H,即
c
∈
H
c\in \mathcal H
c∈H。给定包含m个样例的训练集D,如何找出满足误差参数的假设呢?
容易想到一种简单的学习策略:既然D中样例标记都是由目标概念c赋予的,并且c存在于假设空间
H
\mathcal H
H中,那么,任何在训练集D上出现标记错误的假设肯定不是目标概念c。于是,只需要保留与D一致的假设,剔除与D不一致的假设即可。若训练集D足够大,则可不断借助D中样例剔除不一致的假设,直至
H
\mathcal H
H中仅剩下一个假设为止,这个假设就是目标概念c。通常情形下,由于训练集规模有限,假设空间
H
\mathcal H
H中可能存在不止一个与D一致的“等效”假设,对这些等效假设,无法根据D来对它们的优劣做进一步的区分。
到底需要多少样例才能学得目标概念c的有效近似呢?对PAC学习来说,只要训练集D的规模能使学习算法
L
\mathfrak{L}
L以概率
1
−
δ
1-\delta
1−δ找到目标假设的
ϵ
\epsilon
ϵ近似即可。
先估计泛化误差大于
ϵ
\epsilon
ϵ但在训练集上仍表现完美的假设出现的概率。假定h的泛化误差大于
ϵ
\epsilon
ϵ,对分布
D
\mathcal D
D上随机采样而得的任何样例
(
x
,
y
)
(\pmb x,y)
(xxx,y),有
P
(
h
(
x
)
=
y
)
=
1
−
P
(
h
(
x
)
≠
y
)
=
1
−
E
(
h
)
<
1
−
ϵ
\begin{aligned} P(h(\pmb x) = y) &= 1-P(h(\pmb x)\ne y)\ & = 1- E(h)\ &<1-\epsilon \end{aligned}
P(h(xxx)=y)=1−P(h(xxx)=y)=1−E(h)<1−ϵ
由于D包含m个从
D
\mathcal D
D独立同分布采样而得的样例,因此,h与D表现一致的概率为
P
(
(
h
(
x
1
)
=
y
1
)
∧
⋯
∧
(
h
(
x
m
)
=
y
m
)
)
=
(
1
−
P
(
h
(
x
)
≠
y
)
)
m
<
(
1
−
ϵ
)
m
\begin{aligned} P((h(\pmb x_1) = y_1)\wedge\cdots\wedge(h(\pmb x_m) = y_m))&=(1-P(h(\pmb x)\ne y))^m\ &<(1-\epsilon)^m \end{aligned}
P((h(xxx1)=y1)∧⋯∧(h(xxxm)=ym))=(1−P(h(xxx)=y))m<(1−ϵ)m
事先并不知道学习算法
L
\mathfrak{L}
L会输出
H
\mathcal H
H中的哪个假设,但仅需保证泛化误差大于
ϵ
\epsilon
ϵ,且在训练集上表现完美的所有假设出现概率之和不大于
δ
\delta
δ即可:
P
(
h
∈
H
:
E
(
h
)
>
ϵ
∧
E
^
(
h
)
=
0
)
<
∣
H
∣
(
1
−
ϵ
)
m
<
∣
H
∣
e
−
m
ϵ
\begin{aligned} P(h\in \mathcal H:E(h) > \epsilon \wedge \hat E(h) = 0) &< |\mathcal H| (1-\epsilon)^m\ &<|\mathcal H|e^{-m\epsilon} \end{aligned}
P(h∈H:E(h)>ϵ∧E^(h)=0)<∣H∣(1−ϵ)m<∣H∣e−mϵ
令上式不大于
δ
\delta
δ,即
∣
H
∣
e
−
m
ϵ
≤
δ
|\mathcal H|e^{-m\epsilon} \le \delta
∣H∣e−mϵ≤δ
可得
m
≥
1
m
(
ln
∣
H
∣
+
ln
1
δ
)
m\ge \frac{1}{m}(\operatorname{ln}|\mathcal H|+ \operatorname{ln}\frac{1}{\delta})
m≥m1(ln∣H∣+lnδ1)
由此可知,有限假设空间
H
\mathcal H
H都是PAC可学习的,所需的样例数目如上式所示,输出假设h的泛化误差随样例数目的增多而收敛到0,收敛速度为
O
(
1
m
)
O(\frac{1}{m})
O(m1)
对较为困难的学习问题,目标概念c往往不存在于假设空间 H \mathcal H H中。假定对于任何 h ∈ H , E ^ ( h ) ≠ 0 h\in \mathcal H, \hat E(h)\ne 0 h∈H,E^(h)=0,也就是说, H \mathcal H H中的任意一个假设都会在训练集上出现或多或少的错误。由Hoffding不等式易知:
- 若训练集D中包含m个从分布
D
\mathcal D
D上独立同分布采样而得的样例,
0
<
ϵ
<
1
0<\epsilon<1
0<ϵ<1,则对任意
h
∈
H
h\in \mathcal H
h∈H,有
P ( E ^ ( h ) − E ( h ) ≥ ϵ ) ≤ exp ( − 2 m ϵ 2 ) P ( E ( h ) − E ^ ( h ) ≥ ϵ ) ≤ exp ( − 2 m ϵ 2 ) P ( ∣ E ( h ) − E ^ ( h ) ≥ ϵ ∣ ) ≤ 2 exp ( − 2 m ϵ 2 ) \begin{aligned} &P(\hat E(h)-E(h)\ge\epsilon)\le \operatorname{exp}(-2m\epsilon^2)\ &P(E(h)-\hat E(h)\ge\epsilon)\le \operatorname{exp}(-2m\epsilon^2)\ &P(|E(h)-\hat E(h)\ge\epsilon|)\le 2\operatorname{exp}(-2m\epsilon^2)\ \end{aligned} P(E^(h)−E(h)≥ϵ)≤exp(−2mϵ2)P(E(h)−E^(h)≥ϵ)≤exp(−2mϵ2)P(∣E(h)−E^(h)≥ϵ∣)≤2exp(−2mϵ2) - 若训练集D包含m个从分布
D
\mathcal D
D上独立同分布采样而得的样例,
0
<
ϵ
<
1
0<\epsilon<1
0<ϵ<1,则对任意
h
∈
H
h\in \mathcal H
h∈H,下式至少
1
−
δ
1-\delta
1−δ的概率成立。
E ^ ( h ) − ln ( 2 / δ ) 2 m ≤ E ( h ) ≤ E ^ ( h ) + ln ( 2 / δ ) 2 m \hat E(h) - \sqrt{\frac{\operatorname{ln}(2/\delta)}{2m}}\le E(h)\le \hat E(h) + \sqrt{\frac{\operatorname{ln}(2/\delta)}{2m}} E^(h)−2mln(2/δ) ≤E(h)≤E^(h)+2mln(2/δ)
上述推论表明,样例数目m较大时,h的经验误差是其泛化误差很好的近似。
- 若
H
\mathcal H
H为有限假设空间,
0
<
δ
<
1
0<\delta<1
0<δ<1,则对任意
h
∈
H
h\in \mathcal H
h∈H,有
P ( ∣ E ( h ) − E ^ ( h ) ∣ ≤ ln ∣ H ∣ + ln ( 2 / δ ) 2 m ) ≥ 1 − δ P\bigg(|E(h)-\hat E(h)|\le \sqrt{\frac{\operatorname{ln}|\mathcal H|+ \operatorname{ln}(2/\delta)}{2m}}\bigg)\ge 1-\delta P(∣E(h)−E^(h)∣≤2mln∣H∣+ln(2/δ) )≥1−δ
推导略
显然,当 c ≠ H c\ne \mathcal H c=H时,学习算法 L \mathfrak{L} L无法学得目标概念c的 ϵ \epsilon ϵ近似。但是,当假设空间 H \mathcal H H给定时,其中必存在一个泛化误差最小的假设,找出此假设的 ϵ \epsilon ϵ近似也不失为一个较好的目标。 H \mathcal H H中泛化误差最小的假设是 arg min h ∈ H E ( h ) \operatorname{arg \ min}_{h\in \mathcal H}E(h) arg minh∈HE(h),于是,以此为目标可将PAC学习推广到 c ∉ H c\notin \mathcal H c∈/H的情形,这称为“不可知学习”(agnostic learning)。相应的,我们有
- 不可知PAC可学习(agnostic PAC learnable) 令m表示从分布
D
\mathcal D
D中独立同分布采样得到的样例数目,
0
<
ϵ
,
δ
<
1
0<\epsilon,\delta<1
0<ϵ,δ<1,对所有分布
D
\mathcal D
D,若存在学习算法
L
\mathfrak{L}
L和多项式函数
p
o
l
y
(
⋅
,
⋅
,
⋅
,
⋅
)
poly(\cdot,\cdot,\cdot,\cdot)
poly(⋅,⋅,⋅,⋅),使得对于任何
m
≥
p
o
l
y
(
1
/
ϵ
,
1
/
δ
,
s
i
z
e
(
x
)
,
s
i
z
e
(
c
)
)
m\ge poly(1/\epsilon,1/\delta,size(\pmb x),size(c))
m≥poly(1/ϵ,1/δ,size(xxx),size(c)),
L
\mathfrak{L}
L能从假设空间
H
\mathcal H
H中输出满足下式的假设h:
P ( E ( h ) − min h ′ ∈ H E ( h ′ ) ≤ ϵ ) ≥ 1 − δ P(E(h)-\underset{h'\in \mathcal H}{\operatorname{min}}E(h')\le \epsilon)\ge 1-\delta P(E(h)−h′∈HminE(h′)≤ϵ)≥1−δ
则称假设空间 H \mathcal H H是不可知PAC可学习的。
与PAC学习类似,若学习算法 L \mathfrak{L} L的运行时间也是多项式函数 p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) poly(1/\epsilon,1/\delta,size(\pmb x),size(c)) poly(1/ϵ,1/δ,size(xxx),size(c)),则称假设空间 H \mathcal H H是高效不可知PAC可学习的,学习算法 L \mathfrak{L} L则称为假设空间 H \mathcal H H的不可知PAC学习算法,满足上述要求的最小m称为学习算法 L \mathfrak{L} L的样本复杂度。
现实学习任务所面临的通常是无限假设空间,例如实数域中的所有区间、
R
d
\mathbb R^d
Rd空间中的所有线性超平面。欲对此情形的可学习性进行研究,需度量假设空间的复杂度。最常见的办法是考虑假设空间的“VC维”(Vapnik-Chervonenkis dimension)
介绍VC维之前,先引进几个概念:增长函数(growth function)、对分(dichotomy)和打散(shattering)
给定假设空间
H
\mathcal H
H和示例集
D
=
{
x
1
,
x
2
,
⋯
,
x
m
}
D=\{\pmb x_1,\pmb x_2,\cdots,\pmb x_m\}
D={xxx1,xxx2,⋯,xxxm},
H
\mathcal H
H中每个假设h都能对D中示例赋予标记,标记结果可表示为
h
∣
D
=
{
(
h
(
x
1
)
,
h
(
x
2
)
,
⋯
,
h
(
x
m
)
)
}
h|_D = \{(h(\pmb x_1),h(\pmb x_2),\cdots,h(\pmb x_m))\}
h∣D={(h(xxx1),h(xxx2),⋯,h(xxxm))}
随着m的增大,
H
\mathcal H
H中所有假设对D中示例所赋予标记的可能结果数也会增大。
- 对所有
m
∈
N
m\in \mathbb N
m∈N,假设空间
H
\mathcal H
H的增长函数
Π
H
(
m
)
\Pi_{\mathcal H}(m)
ΠH(m)为
Π H ( m ) = max { x 1 , ⋯ , x m } ⊆ X ∣ { ( h ( x 1 ) , h ( x 2 ) , ⋯ , h ( x m ) ) ∣ h ∈ H } ∣ \Pi_{\mathcal H}(m)= \underset{\{x_1,\cdots,x_m\}\subseteq \mathcal X}{\operatorname{max}}|\{(h(\pmb x_1),h(\pmb x_2),\cdots,h(\pmb x_m))|h\in \mathcal H\}| ΠH(m)={x1,⋯,xm}⊆Xmax∣{(h(xxx1),h(xxx2),⋯,h(xxxm))∣h∈H}∣
增长函数 Π H ( m ) \Pi_{\mathcal H}(m) ΠH(m)表示假设空间 H \mathcal H H对m个示例所能赋予标记的最大可能结果数。显然, H \mathcal H H对示例所能赋予标记的可能结果数越大, H \mathcal H H的表示能力越强,对学习任务的适应能力也越强。因此,增长函数描述了假设空间 H \mathcal H H表示能力,由此反映出假设空间的复杂度。可利用增长函数来估计经验误差与泛化误差之间的关系:
- 对假设空间
H
,
m
∈
N
,
0
<
ϵ
<
1
\mathcal H,m\in \mathbb N,0<\epsilon<1
H,m∈N,0<ϵ<1和任意
h
∈
H
h\in \mathcal H
h∈H有
P ( ∣ E ( h ) − E ^ ( h ) ∣ > ϵ ) ≤ 4 Π H ( 2 m ) exp ( − m ϵ 2 8 ) P(|E(h)-\hat E(h)|>\epsilon)\le 4\Pi_{\mathcal H}(2m)\operatorname{exp}(-\frac{m\epsilon^2}{8}) P(∣E(h)−E^(h)∣>ϵ)≤4ΠH(2m)exp(−8mϵ2)
假设空间 H \mathcal H H中不同的假设对于D中示例赋予标记的结果可能相同,也可能不同;尽管 H \mathcal H H可能包含无穷多个假设,但其对D中示例赋予标记的可能结果数是有限的:对m个示例,最多有 2 m 2^m 2m个可能结果。对二分类问题来说, H \mathcal H H中假设对D中示例赋予标记的每种可能结果称为D的一种“对分”。若假设空间 H \mathcal H H能实现示例集D上的所有对分,即 Π H ( m ) = 2 m \Pi_{\mathcal H}(m)=2^m ΠH(m)=2m,则称示例集D能被假设空间 H \mathcal H H“打散”。 - 假设空间
H
\mathcal H
H的VC维是能被
H
\mathcal H
H打散的最大示例集的大小,即
V C ( H ) = max { m : Π H ( m ) = 2 m } VC(\mathcal H) = \operatorname{max}\{m:\Pi_{\mathcal H}(m)=2^m\} VC(H)=max{m:ΠH(m)=2m}
V C ( H ) = d VC(\mathcal H) =d VC(H)=d表明存在大小为d的示例集能被假设空间 H \mathcal H H打散。注意:并不意味着所有大小为d的示例集都能被假设空间 H \mathcal H H打散。VC维的定义与数据分布 D \mathcal D D无关。因此,在数据分布未知时仍能计算出假设空间 H \mathcal H H的VC维。
通常这样来计算 H \mathcal H H的VC维:若存在大小为d的示例集能被 H \mathcal H H打散,但不存在任何大小为d+1的示例集能被 H \mathcal H H打散,则 H \mathcal H H的VC维是d。
有上述定义可知,VC维与增长函数有密切联系,下式给出了二者之间的定量关系。 - 假定空间
H
\mathcal H
H的VC维为d,则对任意
m
∈
N
m\in \mathbb N
m∈N有
Π H ( m ) ≤ ∑ i = 0 d ( m i ) \Pi_{\mathcal H}(m)\le \sum_{i=0}^d\bigg( \begin{matrix} m\ i \end{matrix}\bigg) ΠH(m)≤i=0∑d(mi)
证略
- 从上述可计算出增长函数的上界:若假设空间
H
\mathcal H
H的VC维是d,则对任意整数
m
≥
d
m\ge d
m≥d有
Π H ( m ) ≤ ( e ⋅ m d ) d \Pi_{\mathcal H}(m) \le (\frac{e\cdot m}{d})^d ΠH(m)≤(de⋅m)d
并可得基于VC维的泛化误差界:
- 若假设空间
H
\mathcal H
H的VC维是d,则对任意
m
>
d
,
0
<
δ
<
1
m>d,0<\delta<1
m>d,0<δ<1和
h
∈
H
h\in \mathcal H
h∈H有
P ( E ( h ) − E ^ ( h ) ≤ 8 d ln 2 e m d + 8 ln 4 δ m ) ≥ 1 − δ P\Bigg(E(h)- \hat E(h)\le \sqrt{\frac{8d\operatorname{ln}\frac{2em}{d}+8\operatorname{ln}\frac{4}{\delta}}{m}}\Bigg)\ge 1-\delta P(E(h)−E^(h)≤m8dlnd2em+8lnδ4 )≥1−δ
泛化误差界只与样例数目m有关,收敛速率为
O
(
1
m
)
O(\frac{1}{\sqrt m})
O(m
1),与数据分布
D
\mathcal D
D和样例集D无关。因此,基于VC维的泛化误差界是分布无关(distribution-free)、数据独立(data-independent)的
令h表示学习算法
L
\mathfrak{L}
L输出的假设,若h满足
E
^
(
h
)
=
min
h
′
∈
H
E
^
(
h
′
)
\hat E(h) = \underset{h'\in \mathcal H}{\operatorname{min}}\hat E(h')
E^(h)=h′∈HminE^(h′)
则称
L
\mathfrak{L}
L满足经验风险最小化(Empirical Risk Minimization,简称ERM)原则的算法。有以下定理:
- 任何VC维有限的假设空间 H \mathcal H H都是(不可知)PAC可学习的
五、Rademacher复杂度证略
基于VC维的泛化误差界是分布无关、数据独立的,也就是说,对任何数据分布都成立。这使得VC维的可学习性分析结果具有一定的“普适性”;但从另一方面来说,由于没有考虑数据自身,基于VC维得到的泛化误差界通常比较“松”,对那些与学习问题的典型情况相差甚远的较“坏”分布来说尤其如此。
Rademacher复杂度(Rademacher complexity)是另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布。
给定数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
m
,
y
m
)
}
D = \{(\pmb x_1,y_1),(\pmb x_2,y_2),\cdots,(\pmb x_m,y_m)\}
D={(xxx1,y1),(xxx2,y2),⋯,(xxxm,ym)},假设h的经验误差为
E
^
(
h
)
=
1
m
∑
i
=
1
m
Π
(
h
(
x
i
)
≠
y
i
)
=
1
m
∑
i
=
1
m
1
−
y
i
h
(
x
i
)
2
=
1
2
−
1
2
m
∑
i
=
1
m
y
i
h
(
x
i
)
\begin{aligned} \hat E(h) &= \frac{1}{m}\sum_{i=1}^m \Pi(h(\pmb x_i)\ne y_i)\ & = \frac{1}{m}\sum_{i=1}^m \frac{1-y_ih(\pmb x_i)}{2}\ & = \frac{1}{2} - \frac{1}{2m}\sum_{i=1}^m y_ih(\pmb x_i) \end{aligned}
E^(h)=m1i=1∑mΠ(h(xxxi)=yi)=m1i=1∑m21−yih(xxxi)=21−2m1i=1∑myih(xxxi)
其中
1
2
m
∑
i
=
1
m
y
i
h
(
x
i
)
\frac{1}{2m}\sum_{i=1}^m y_ih(\pmb x_i)
2m1∑i=1myih(xxxi)体现了预测值
h
(
x
i
)
h(\pmb x_i)
h(xxxi)与真实样本标记
y
i
y_i
yi之间的一致性,若对于所有
i
∈
{
1
,
2
,
⋯
,
m
}
i\in \{1,2,\cdots,m\}
i∈{1,2,⋯,m}都有
h
(
x
i
)
=
y
i
h(\pmb x_i) = y_i
h(xxxi)=yi,则
1
m
∑
i
=
1
m
y
i
h
(
x
i
)
\frac{1}{m}\sum_{i=1}^m y_ih(\pmb x_i)
m1∑i=1myih(xxxi)取最大值1。也就是说,经验误差最小的假设是
arg min
h
∈
H
1
m
∑
i
=
1
m
y
i
h
(
x
i
)
\underset{h\in \mathcal H}{\operatorname{arg \ min}}\frac{1}{m}\sum_{i=1}^my_ih(\pmb x_i)
h∈Harg minm1i=1∑myih(xxxi)
然而,现实任务中样例的标记有时会收到噪声影响,即对某些样例
(
x
i
,
y
i
)
(\pmb x_i,y_i)
(xxxi,yi),其
y
i
y_i
yi或许已受到随机因素的影响,不再是
x
i
\pmb x_i
xxxi的真实标记。在此情形下,选择假设空间
H
\mathcal H
H中在训练集上表现最好的假设,有时还不如选择
H
\mathcal H
H中事先已考虑了随机噪声影响的假设。
考虑随机变量
σ
i
\sigma_i
σi,它以0.5的概率取值-1,0.5的概率取值+1,称为Rademacher随机变量。基于
σ
i
\sigma_i
σi可将上式重写为
sup
h
∈
H
1
m
∑
i
=
1
m
σ
i
h
(
x
i
)
\underset{h\in \mathcal H}{\operatorname{sup}}\frac{1}{m}\sum_{i=1}^m\sigma_i h(\pmb x_i)
h∈Hsupm1i=1∑mσih(xxxi)
考虑
H
\mathcal H
H中的所有假设,对上式求期望可得
E
σ
[
sup
h
∈
H
1
m
∑
i
=
1
m
σ
i
h
(
x
i
)
]
\mathbb E_{\sigma}\bigg[\underset{h\in \mathcal H}{\operatorname{sup}}\frac{1}{m}\sum_{i=1}^m\sigma_i h(\pmb x_i)\bigg]
Eσ[h∈Hsupm1i=1∑mσih(xxxi)]
其中
σ
=
{
σ
1
,
σ
2
,
⋯
,
σ
m
}
\pmb \sigma = \{\sigma_1,\sigma_2,\cdots,\sigma_m\}
σσσ={σ1,σ2,⋯,σm}.上式的取值范围是[0,1],它体现了假设空间
H
\mathcal H
H的表达能力,例如,当
∣
H
∣
=
1
|\mathcal H| = 1
∣H∣=1时,
H
\mathcal H
H中仅有一个假设,这时可计算出上式得值为0;当
∣
H
∣
=
2
m
|\mathcal H| = 2^m
∣H∣=2m且
H
\mathcal H
H能打散D时,对任意
σ
\pmb \sigma
σσσ总有一个假设使得
h
(
x
i
)
=
σ
i
(
i
=
1
,
2
,
⋯
,
m
)
h(\pmb x_i) = \sigma_i(i = 1,2,\cdots,m)
h(xxxi)=σi(i=1,2,⋯,m),这时可计算出上式得值为1.
考虑实值函数空间
F
:
Z
→
R
\mathcal F:\mathcal Z \rightarrow \mathbb R
F:Z→R,令
Z
=
{
z
1
,
z
2
,
⋯
,
z
m
}
Z = \{z_1,z_2,\cdots,z_m\}
Z={z1,z2,⋯,zm},其中
z
i
∈
Z
z_i \in \mathcal Z
zi∈Z,将上式中的
X
\mathcal X
X和
H
\mathcal H
H替换为
Z
\mathcal Z
Z和
F
\mathcal F
F可得
- 函数空间
F
\mathcal F
F关于
Z
\mathcal Z
Z的经验Rademacher复杂度
R ^ Z ( F ) = E σ [ sup f ∈ F 1 m ∑ i = 1 m σ i h ( z i ) ] \hat R_{\mathcal Z}(\mathcal F) = \mathbb E_{\sigma}\bigg[\underset{f\in \mathcal F}{\operatorname{sup}}\frac{1}{m}\sum_{i=1}^m\sigma_i h(\pmb z_i)\bigg] R^Z(F)=Eσ[f∈Fsupm1i=1∑mσih(zzzi)]
经验Rademacher复杂度衡量了函数空间 F \mathcal F F与随机噪声在集合 Z Z Z中的相关性。通常希望了解函数空间 F \mathcal F F在 Z \mathcal Z Z上关于分布 D \mathcal D D的相关性,因此,对所有从 D \mathcal D D独立同分布采样而得的大小为m的集合Z求期望可得
- 函数空间
F
\mathcal F
F关于
Z
\mathcal Z
Z上的分布
D
\mathcal D
D的Rademacher复杂度
R m ( F ) = E Z ⊆ Z : ∣ Z ∣ = m [ R ^ Z ( F ) ] R_m(\mathcal F) = \mathbb E_{Z\subseteq \mathcal Z:|Z| = m}\bigg[\hat R_Z(\mathcal F)\bigg] Rm(F)=EZ⊆Z:∣Z∣=m[R^Z(F)]
基于Rademacher复杂度可得关于函数空间 F \mathcal F F的泛化误差界
- 对实值函数空间
F
:
Z
→
[
0
,
1
]
\mathcal F:\mathcal Z\rightarrow [0,1]
F:Z→[0,1],根据分布
D
\mathcal D
D从
Z
\mathcal Z
Z中独立同分布采样得到示例集
Z
=
{
z
1
,
z
2
,
⋯
,
z
m
}
,
z
i
∈
Z
,
0
<
δ
<
1
Z = \{\pmb z_1,\pmb z_2,\cdots,\pmb z_m\},\pmb z_i \in \mathcal Z,0<\delta<1
Z={zzz1,zzz2,⋯,zzzm},zzzi∈Z,0<δ<1,对任意
f
∈
F
f\in \mathcal F
f∈F,以至少
1
−
δ
1-\delta
1−δ的概率有
E [ f ( z ) ] ≤ 1 m ∑ i = 1 m f ( z i ) + 2 R m ( F ) + ln ( 1 / δ ) 2 m E [ f ( z ) ] ≤ 1 m ∑ i = 1 m f ( z i ) + 2 R ^ Z ( F ) + 3 ln ( 1 / δ ) 2 m \begin{aligned} &\mathbb E[f(z)] \le \frac{1}{m}\sum_{i=1}^mf(z_i) + 2R_m(\mathcal F) + \sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\ &\mathbb E[f(z)] \le \frac{1}{m}\sum_{i=1}^mf(z_i) + 2\hat R_Z(\mathcal F) + 3\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\ \end{aligned} E[f(z)]≤m1i=1∑mf(zi)+2Rm(F)+2mln(1/δ) E[f(z)]≤m1i=1∑mf(zi)+2R^Z(F)+32mln(1/δ)
证略
需注意的是,上述定理中的函数空间 F \mathcal F F是区间[0,1]上的实值函数,因此,只适用于回归问题。对二分类问题,我们有下面的定理:
- 对假设空间
H
:
X
→
{
−
1
,
+
1
}
\mathcal H:\mathcal X\rightarrow \{-1,+1\}
H:X→{−1,+1},根据分布
D
\mathcal D
D从
X
\mathcal X
X中独立同分布采样得到示例集
D
=
{
x
1
,
x
2
,
⋯
,
x
m
}
,
x
i
∈
X
,
0
<
δ
<
1
D=\{\pmb x_1,\pmb x_2,\cdots,\pmb x_m\},\pmb x_i \in \mathcal X,0<\delta<1
D={xxx1,xxx2,⋯,xxxm},xxxi∈X,0<δ<1,对任意
h
∈
H
h\in \mathcal H
h∈H,以至少
1
−
δ
1-\delta
1−δ的概率有
E [ h ] ≤ E ^ ( h ) + R m ( H ) + ln ( 1 / δ ) 2 m E [ h ] ≤ E ^ ( h ) + R D ( H ) + 3 ln ( 1 / δ ) 2 m \begin{aligned} &\mathbb E[h] \le \hat E(h) + R_m(\mathcal H)+ \sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\ &\mathbb E[h] \le \hat E(h) + R_D(\mathcal H)+ 3\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\ \end{aligned} E[h]≤E^(h)+Rm(H)+2mln(1/δ) E[h]≤E^(h)+RD(H)+32mln(1/δ)
上述定理给出了基于Rademacher复杂度的泛化误差界。基于VC维的泛化误差界是分布无关、数据独立的,而基于Rademacher复杂度的泛化误差界与分布
D
\mathcal D
D有关,与数据D有关。换言之,基于Rademacher复杂度的泛化误差界依赖于具体学习问题上的数据分布,有点类似于为该学习问题“量身定制”的,因此它通常比基于VC维的泛化误差界更紧一些。
值得一提的是,关于Rademacher复杂度与增长函数,有如下定理:
- 假设空间
H
\mathcal H
H的Rademacher复杂度
R
m
(
H
)
R_m(\mathcal H)
Rm(H)与增长函数
Π
H
(
m
)
\Pi_{\mathcal H}(m)
ΠH(m)满足
R m ( H ) ≤ 2 ln Π H ( m ) m R_m(\mathcal H)\le \sqrt{\frac{2\operatorname{ln}\Pi_{\mathcal H}(m)}{m}} Rm(H)≤m2lnΠH(m)
可得
E ( h ) ≤ E ^ ( h ) + 2 d ln e m d m + ln ( 1 / δ ) 2 m E(h)\le \hat E(h) + \sqrt{\frac{2d\operatorname{ln}\frac{em}{d}}{m}} + \sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}} E(h)≤E^(h)+m2dlndem +2mln(1/δ)
也就是说,从Rademacher复杂度和增长函数能推导出VC维的泛化误差界。
无论是基于VC维还是Rademacher复杂度来推导泛化误差界,所得到的结果均与具体学习算法无关,对所有学习算法都适用。这使得人们能够脱离具体学习算法的设计来考虑学习问题本身的性质,但在另一方面,若希望获得与算法有关的分析结果,则需另辟蹊径。稳定性(stability) 分析是这方面一个值得关注的方向。
顾名思义,算法的“稳定性”考察的是算法在输入发生变化时,输出是否会随之发生较大变化。学习算法的输入是训练集,因此下面先定义训练集的两种变化。
给定
D
=
{
z
1
=
(
x
1
,
y
1
)
,
z
2
=
(
x
2
,
y
2
)
,
⋯
,
z
m
=
(
x
m
,
y
m
)
}
,
x
i
∈
X
D = \{\pmb z_1 = (\pmb x_1,y_1),\pmb z_2 = (\pmb x_2,y_2),\cdots,\pmb z_m = (\pmb x_m,y_m)\},\pmb x_i \in \mathcal X
D={zzz1=(xxx1,y1),zzz2=(xxx2,y2),⋯,zzzm=(xxxm,ym)},xxxi∈X是来自分布
D
\mathcal D
D的独立同分布示例,
y
i
=
{
−
1
,
+
1
}
y_i = \{-1,+1\}
yi={−1,+1}。对假设空间
H
:
X
→
{
−
1
,
+
1
}
\mathcal H:\mathcal X\rightarrow \{-1,+1\}
H:X→{−1,+1}和学习算法
L
\mathfrak{L}
L,令
L
D
∈
H
\mathfrak{L}_D\in \mathcal H
LD∈H表示基于训练集D从假设空间
H
\mathcal H
H中学得的假设。考虑D的以下变化:
-
D
/
i
D^{/i}
D/i表示移出D中第i个样例得到的集合
D / i = { z 1 , z 2 , ⋯ , z i − 1 , z i + 1 , ⋯ , z m } D^{/i} = \{\pmb z_1,\pmb z_2,\cdots,\pmb z_{i-1},\pmb z_{i+1},\cdots,\pmb z_m\} D/i={zzz1,zzz2,⋯,zzzi−1,zzzi+1,⋯,zzzm} -
D
i
D^{i}
Di表示替换D中第i个样例得到的集合
D i = { z 1 , z 2 , ⋯ , z i − 1 , z i ′ , z i + 1 , ⋯ , z m } D^{i} = \{\pmb z_1,\pmb z_2,\cdots,\pmb z_{i-1},\pmb z_{i}',\pmb z_{i+1},\cdots,\pmb z_m\} Di={zzz1,zzz2,⋯,zzzi−1,zzzi′,zzzi+1,⋯,zzzm}
其中 z i ′ = ( x i ′ , y i ′ ) , x i ′ \pmb z_i' = (\pmb x_i',y_i'),\pmb x_i' zzzi′=(xxxi′,yi′),xxxi′服从分布 D \mathcal D D并独立于D
损失函数 ℓ ( L D ( x ) , y ) : Y × Y → R + \ell(\mathfrak{L}_D(\pmb x),y):\mathcal Y\times \mathcal Y \rightarrow \mathbb R^+ ℓ(LD(xxx),y):Y×Y→R+刻画了假设 L D \mathfrak{L}_D LD的预测标记 L D ( x ) \mathfrak{L}_D(\pmb x) LD(xxx)与真实标记y之间的差距,简记为 ℓ ( L D , z ) \ell(\mathfrak{L}_D,\pmb z) ℓ(LD,zzz)。下面定义关于假设 L D \mathfrak{L}_D LD的几种损失。
-
泛化损失
L D ( x ) = E x ∈ X , z = ( x , y ) [ ℓ ( L D , z ) ] \mathfrak{L}_D(\pmb x) = \mathbb E_{x\in \mathcal X,z=(x,y)}[\ell(\mathfrak{L}_D,\pmb z)] LD(xxx)=Ex∈X,z=(x,y)[ℓ(LD,zzz)] -
经验损失
ℓ ^ ( L , D ) = 1 m ∑ i = 1 m ℓ ( L D , z i ) \hat \ell(\mathfrak{L},D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_D,\pmb z_i) ℓ^(L,D)=m1i=1∑mℓ(LD,zzzi) -
留一(leave-one-out)损失
ℓ l o o ( L , D ) = 1 m ∑ i = 1 m ℓ ( L D / i , z i ) \ell_{loo}(\mathfrak{L},D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{/i}},\pmb z_i) ℓloo(L,D)=m1i=1∑mℓ(LD/i,zzzi)
下面定义算法的均匀稳定性(uniform stability) -
对任何 x ∈ X , z = ( x , y ) \pmb x \in \mathcal X,\pmb z=(\pmb x,y) xxx∈X,zzz=(xxx,y),若学习算法 L \mathfrak L L满足
∣ ℓ ( L D , z ) − ℓ ( L D / i , z ) ∣ ≤ β , i = 1 , 2 , ⋯ , m |\ell(\mathfrak L_D,\pmb z)-\ell(\mathfrak L_{D^{/i}},\pmb z)|\le \beta,\quad i=1,2,\cdots,m ∣ℓ(LD,zzz)−ℓ(LD/i,zzz)∣≤β,i=1,2,⋯,m
则称 L \mathfrak L L关于损失函数 ℓ \ell ℓ满足 β \beta β-均匀稳定性
显然,若算法
L
\mathfrak L
L关于损失函数
ℓ
\ell
ℓ满足
β
\beta
β-均匀稳定性则有
∣
ℓ
(
L
D
,
z
)
−
ℓ
(
L
D
i
,
z
)
∣
≤
∣
ℓ
(
L
D
,
z
)
−
ℓ
(
L
D
/
i
,
z
)
∣
+
∣
ℓ
(
L
D
i
,
z
)
−
ℓ
(
L
D
/
i
,
z
)
∣
≤
2
β
\begin{aligned} &|\ell(\mathfrak L_D,\pmb z)-\ell(\mathfrak L_{D^{i}},\pmb z)|\ \le & |\ell(\mathfrak L_D,\pmb z)-\ell(\mathfrak L_{D^{/i}},\pmb z)| + |\ell(\mathfrak L_{D^i},\pmb z)-\ell(\mathfrak L_{D^{/i}},\pmb z)|\ \le & 2\beta \end{aligned}
≤≤∣ℓ(LD,zzz)−ℓ(LDi,zzz)∣∣ℓ(LD,zzz)−ℓ(LD/i,zzz)∣+∣ℓ(LDi,zzz)−ℓ(LD/i,zzz)∣2β
就是说,移出示例的稳定性包含替换示例的稳定性
若损失函数
ℓ
\ell
ℓ有界,即对所有D和
z
=
(
x
,
y
)
\pmb z = (\pmb x,y)
zzz=(xxx,y)有
0
≤
ℓ
(
L
D
,
z
)
≤
M
0\le\ell(\mathfrak L_D,\pmb z)\le M
0≤ℓ(LD,zzz)≤M,则有
- 给定从分布
D
\mathcal D
D上独立同分布采样得到的大小为m的示例集D,若学习算法
L
\mathfrak L
L满足关于损失函数
ℓ
\ell
ℓ的
β
\beta
β-均匀稳定性,且损失函数
ℓ
\ell
ℓ的上界为M,
0
<
δ
<
1
0<\delta<1
0<δ<1,则对任意
m
≥
1
m\ge 1
m≥1,以至少
1
−
δ
1-\delta
1−δ的概率有
ℓ ( L , D ) ≤ ℓ ^ ( L , D ) + 2 β + ( 4 m β + M ) ln ( 1 / δ ) 2 m ℓ ( L , D ) ≤ ℓ l o o ( L , D ) + β + ( 4 m β + M ) ln ( 1 / δ ) 2 m \begin{aligned} &\ell(\mathfrak L,D)\le \hat \ell(\mathfrak L,D) + 2\beta + (4m\beta + M)\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\ &\ell(\mathfrak L,D)\le \ell_{loo}(\mathfrak L,D) + \beta + (4m\beta + M)\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\ \end{aligned} ℓ(L,D)≤ℓ^(L,D)+2β+(4mβ+M)2mln(1/δ) ℓ(L,D)≤ℓloo(L,D)+β+(4mβ+M)2mln(1/δ)
上述给出了基于稳定性分布推导出的学习算法 L \mathfrak L L学得假设的泛化误差界。可看出,经验损失与泛化损失之间差别的收敛率为 β m \beta\sqrt{m} βm ;若 β = O ( 1 m ) \beta = O(\frac{1}{m}) β=O(m1),则可保证收敛率为 O ( 1 m ) O(\frac{1}{\sqrt{m}}) O(m 1)。这与基于VC维和Rademacher复杂度得到的收敛率一致。
需注意,学习算法的稳定性分析所关注的是 ∣ ℓ ^ ( L , D ) − ℓ ( L , D ) ∣ |\hat \ell(\mathfrak L,D)- \ell(\mathfrak L,D)| ∣ℓ^(L,D)−ℓ(L,D)∣,而假设空间复杂度分析所关注的是 sup h ∈ H ∣ E ^ ( h ) − E ( h ) ∣ \operatorname{sup}_{h\in\mathcal H}|\hat E(h)-E(h)| suph∈H∣E^(h)−E(h)∣;也就是说,稳定性分析不必考虑假设空间中所有可能的假设,只需根据算法自身的特性(稳定性)来讨论输出假设 L \mathfrak L L的泛化误差界,那么,稳定性与可学习性之间有什么关系呢?
首先,必须假设 β m → 0 \beta \sqrt{m}\rightarrow 0 βm →0,这样才能保证稳定的学习算法 L \mathfrak L L具有一定的泛化能力,即经验损失收敛于泛化损失,否则可学习性无从谈起。为了便于计算,我们假定 β = 1 m \beta = \frac{1}{m} β=m1,代入可得
ℓ ( L , D ) ≤ ℓ ^ ( L , D ) + 2 m + ( 4 + M ) ln ( 1 / δ ) 2 m \ell(\mathfrak L,D)\le \hat \ell(\mathfrak L,D) + \frac{2}{m} + (4+M)\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}} ℓ(L,D)≤ℓ^(L,D)+m2+(4+M)2mln(1/δ)
对损失函数 ℓ \ell ℓ,若学习算法 L \mathfrak L L所输出的假设满足经验损失最小化,则称算法 L \mathfrak L L满足经验风险最小化(Empirical Risk Minimization)原则,简称算法是ERM的。关于学习算法的稳定性和可学习性,有如下定理:
- 若学习算法 L \mathfrak L L是ERM且稳定的,则假设空间 H \mathcal H H可学习。
证略
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)