在做机器学习和线性回归的时候,经常会遇到不讲道理的最小二乘法,优化的目标是(yi-y)^2最小,这个结论非常暴力,为啥不是三次方,四次方,他的来源是什么呢?
本文参考的内容 高斯马尔科夫定理的证明
在 统计学 中, 高斯-马尔可夫定理(Gauss-Markov Theorem) 陈述的是:在 线性回归 模型中,如果误差满足零 均值 、 同方差 且 互不相关 ,则回归系数的最佳线性 无偏 估计 ( BLUE , Best Linear unbiased estimator)就是 普通最小二乘法估计 。
上面的理论言简意赅,但是很多名词的意思需要展开来理解。
1、什么是线性回归?
2、为什么要零均值、同方差、互不相关
3、什么是线性估计,什么是无偏估计?
4、什么是最佳估计,标准是什么?
回归就是利用测量到的数据去尝试计算真实值得一种方法,假设我们测量到了很多的数据,但是我们内心觉得这些数据可能是有线性关系的,那么我们可以利用这些数据去计算(估计)那条真实的“直线”。
线性回归有一些问题值得思考:
这个比较好理解,每一次测量,肯定是存在误差的,如果这个误差的均值是0,形象的理解就是误差可能大一点、也可能小一点,平均起来就是在真值附近变化,而且每次测量的行为都是独立互不影响的。我们就可以定义这个误差的期望是0,方差是一个固定值。
我们也不知道真实值,对误差的这种假设其实一种理想的假设。
线性估计的模型是这样的,beta是一个模型的真实值,他的维度是k维向量,X是我们的样本,他是一个NK的矩阵,y是我们样本的结果,是一个N维矩阵,epsilon是我们每次测量和真实值的误差。
比如我现在测量了N个学生的身高、体重、起床时间、平时作业成绩。。。。等等这些参数(K个参数),我想知道这些参数和他们的期末考试成绩的线性关系是什么,他们的期末成绩就是y(N维向量),我现在需要估计的beta就是每个参数和期末成绩关系的矩阵。这个方程里面y和x是已知的。
如果N=K,那么这就是一个N元N次方程组,他只有一个解,我们用这个解就能得到一个beta。但是实际情况来说我们可以测量很多学生的值,N可以比K大很多,这种情况下方程组是无解的。(直观理解,那些点并不完全在一条直线、一个平面上)
在这种情况下我需要一种算法去计算一个beta的估计:
这里的C应该是和x有关系的。但是这个C可以有很多形式,他就是一种线性估计
无偏估计的定义大概是这样的:
看着很不直观,但是可以这样理解,无偏估计的意思是我抽取一批样本,然后根据这些样本估计出来的beta,是在真实beta的任意方向等可能存在的,直接一点来说,我把很多批次的估计再来求取一个平均,会更接近于真实的beta,在做无穷多次抽取之后可以任认为这些估计的均值就是真实值。
具体的例子:比如我们要估计总体均值theata,随机抽取一批数据得到样本的均值,这个均值就是无偏的,随着抽取的批次增加,E(E(x)) = theata,也就是均值的均值会得到真实值。
有偏估计是指这个估计的过程中引入了一些系统的误差,最终把很多批次的估计合计起来看,得不到真实的结果。
还有一个和无偏相关的概念——一致性:
关于无偏和一致性这篇文章讲得比较好 深入浅出讲解数理统计——(3)评价估计量的好坏
总结来说:
实际上真实世界中的测量都是有系统误差的,估计出来的值是有偏的,但是如果这个偏差比较小,而且是一致的,那么这个估计量就是有意义的。反之,就算这个估计是无偏的,但是没有一致性,那么只有在穷举之后才能得到那个真实值,这样的估计也是很不好的。
再重复一下开始的假设,在证明过程中,参数都是矩阵形式的、设计到矩阵运算的和矩阵的性质。
现在我们要估计K个系统中的参数,他们组成一个K维向量beta。
OLS(最小二乘法)的估计结果由上图所示,现在的目标就是要证明OLS估计是最佳的
证明如下,带入y,右边出现真值beta,由于epsilon是0均值的,所以OSL估计出来的beta就是真值beta
估计beta的方法有很多种,我们定义最好的一种是,方差最小的,所以最小二乘法是平方而不是三次方、四次方。
也就是说上式中左边的估计方法要优于右边的估计方法,接下来就是证明为什么OSL最小二乘法的方差是最小的
要证明42中的不等式成立,那就是要证明下式是 半正定矩阵
假设一个任意的估计矩阵是C,那么这个估计矩阵和OSL的估计矩阵的差异,设为D矩阵,由于两个beta都是无偏估计,那么有:D矩阵性质是DX=0,这里有个条件概率E[DXbeta|X],如果X是已知的,那么DX只是一个常量,这个常量必须恒等于一个kk的0矩阵
利用了一下这个性质:
一般地,用纯粹的大于号“>”、小于号“<”连接的不等式称为严格不等式,用不小于号(大于或等于号)“≥”、不大于号(小于或等于号)“≤”连接的不等式称为非严格不等式,或称广义不等式。总的来说,用不等号(<,>,≥,≤,≠)连接的式子叫做不等式
经典不等式有以下23个:
琴生不等式
均值不等式
绝对值不等式
权方和不等式
赫尔德不等式
闵可夫斯基不等式
伯努利不等式
舒尔不等式
切比雪夫不等式
幂平均不等式
马尔可夫不等式
契比雪夫不等式
基本不等式
卡尔松不等式
几何不等式
外森比克不等式
克拉克森不等式
yu不等式
施瓦尔兹不等式
卡尔松不等式
三角不等式
erdos不等式
Milosevic不等式
等周不等式
芬斯拉不等式
嵌入不等式
杨氏不等式
车贝契夫不等式
马尔可夫不等式
典范类不等式
佩多不等式
四边形不等式
肖刚不等式
Arakelov不等式
卡拉玛特不等式
外森比克不等式
宫冈-丘不等式
柯西—施瓦茨不等式切比雪夫(Chebyshev)不等式 对于任一随机变量X ,若EX与DX均存在,则对任意ε>0,恒有P{|X-EX|>=ε}=ε} 越小,P{|X-EX|=ε}的一个上界,该上界并不涉及随机变量X的具体概率分布,而只与其方差DX和ε有关,因此,切比雪夫不等式在理论和实际中都有相当广泛的应用需要指出的是,虽然切比雪夫不等式应用广泛,但在一个具体问题中,由它给出的概率上界通常比较保守切比雪夫不等式是指在任何数据集中,与平均数超过K倍标准差的数据占的比例至多是1/K^2在概率论中,切比雪夫不等式显示了随机变数的「几乎所有」值都会「接近」平均这个不等式以数量化这方式来描述,究竟「几乎所有」是多少,「接近」又有多接近:与平均相差2个标准差的值,数目不多於1/4 与平均相差3个标准差的值,数目不多於1/9 与平均相差4个标准差的值,数目不多於1/16 …… 与平均相差k个标准差的值,数目不多於1/K^2 举例说,若一班有36个学生,而在一次考试中,平均分是80分,标准差是10分,我们便可得出结论:少於50分(与平均相差3个标准差以上)的人,数目不多於4个(=361/9)
测度论说法
设(X,∑,μ)为一测度空间,f为定义在X上的广义实值可测函数对於任意实数t > 0,一般而言,若g是非负广义实值可测函数,在f的定义域非降,则有 上面的陈述,可透过以|f|取代f,再取如下定义而得:
概率论说法
设X为随机变数,期望值为μ,方差为σ2对於任何实数k>0,改进 一般而言,切比雪夫不等式给出的上界已无法改进考虑下面例子:这个分布的标准差σ = 1 / k,μ = 0当只求其中一边的值的时候,有Cantelli不等式:[1]
证明
定义,设为集的指标函数,有 又可从马尔可夫不等式直接证明:马氏不等式说明对任意随机变数Y和正数a有\Pr(|Y| \le \opeatorname{E}(|Y|)/a取Y = (X − μ)2及a = (kσ)2亦可从概率论的原理和定义开始证明:
参见
马尔可夫不等式 弱大数定律数学上,不等是表明两个对象的大小或者顺序的二元关系(参见等于)。不等关系主要有四种: a < b,即 a 小于 b a > b,即 a 大于 b 上述两个属于严格不等。 a ≤ b,即 a 小于等于 b a ≥ b,即 a 大于等于 b a≠b,即 a 不等于 b 将两个表达式用不等符号连起来,就构成了不等式。 若不等关系对变数的所有元素都成立,则称其为「绝对的」或「无条件的」。若不等关系只对变数的部分取值成立,而对另一部分将改变方向或失效,则称为条件不等。 不等式两边同时加或减相同的数,或者两边同时乘以或除以同一个正数,不等关系不变。不等式两边同时乘以或除以同一个负数,不等关系改变方向。 符号 a >> b 表示 a 「远大于」 b。其含义是不确定的,可以是 100 倍的差异,也可能是 10 个数量级的差异。和方程相联系,它被用来给出一个非常大的值而使方程的输出满足一个特定的结果。 性质 不等具有下列性质: 三分性: 对任意实数 a、b,只有下列之一是真的: a < b a = b a > b 加法和减法的性质: 对任意实数 a、b、c: 若 a > b;则 a + c > b + c 且 a - c > b - c 若 a < b;则 a + c < b + c 且 a - c < b - c 乘法和除法的性质: 对任意实数 a、b、c: 若 c 为 正数 且 a > b;则 a × c > b × c 且 a / c > b / c 若 c 为 正数 且 a < b;则 a × c < b × c 且 a / c < b / c 若 c 为 负数 且 a > b;则 a × c < b × c 且 a / c < b / c 若 c 为 负数 且 a < b;则 a × c > b × c 且 a / c > b / c 著名的不等式 请参见不等式列表。 数学家常用不等式来限制一些不能简单地使用精确的公式得到的量。一些不等式非常常用,并有特定的名称: Azuma's 不等式 伯努利不等式 布尔不等式 柯西不等式 切比雪夫不等式 Chernoff's 不等式 Cramér-Rao 不等式 Hoeffding's 不等式 赫尔德不等式 平均数不等式 延森不等式 马尔可夫不等式 闵可夫斯基不等式 佩多不等式 三角不等式 内斯比特不等式 取自"zh /wiki/%E4%B8%8D%E 7%AD%89" ==================== ==================== =================
参考: knowledgeyahoo/question/qid=7006082402777
佢系好似 方程式 咁既样 但系不等式既左右两方系唔相等o既! 一般有4种模式: 1)左方 大于 右方 2)左方 小于 右方 3)左方 大于或等于 右方 4)左方 小于或等于 右方
参考: math 书马尔科夫决策过程(MarkovDecisionProcess)是一个由4个元素组成的元祖组成。
很容易定义状态函数为折扣奖励的累计期望,折扣比例。
马尔可夫决策法是指用马尔可夫转移矩阵进行决策的方法,属于概率型决策技术。马尔可夫决策法的基本原理是:决策者在近期内不能确知某一自然状态出现的概率,但知道各自然状态之间概率分布变化即转移矩阵时,可以根据转移矩阵求出未来环境各自然状态出现的稳定概率,再利用期望值决策法或确定型决策技术选取最佳方案。
其决策步骤如下:(1)设想未来环境可能出现的自然状态,并求出自然状态间的正规转移矩阵P。(2)利用马尔可夫正规转移矩阵的性质,求出各自然状态出现的稳定概率。(3)设计行动方案。(4)根据行动方案的收益期望值大小选取最佳方案。解答:根据百科给出的参考资料!
大致如下:
马尔可夫链,因安德烈•马尔可夫(AAMarkov,1856-1922)得名,是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的。
原理简介
马尔可夫链是随机变量X_1,X_2,X_3的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为“状态空间”,而X_n的值则是在时间n的状态。如果X_{n+1}对于过去状态的条件概率分布仅是X_n的一个函数,则 P(X_{n+1}=x|X_0, X_1, X_2, \ldots, X_n) = P(X_{n+1}=x|X_n) 这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。
编辑本段理论发展
马尔可夫在1906年首先做出了这类过程 。而将此一般化到可数无限状态空间是由柯尔莫果洛夫在1936年给出的。 马尔可夫链与布朗运动以及遍历假说这两个二十世纪初期物理学重要课题是相联系的,但马尔可夫寻求的似乎不仅于数学动机,名义上是对于纵属事件大数法则的扩张。 物理马尔可夫链通常用来建模排队理论和统计学中的建模,还可作为信号模型用于熵编码技术,如算术编码(著名的LZMA数据压缩算法就使用了马尔可夫链与类似于算术编码的区间编码)。马尔可夫链也有众多的生物学应用,特别是人口过程,可以帮助模拟生物人口过程的建模。隐蔽马尔可夫模型还被用于生物信息学,用以编码区域或基因预测。 马尔可夫链最近的应用是在地理统计学(geostatistics)中。其中,马尔可夫链用在基于观察数据的二到三维离散变量的随机模拟。这一应用类似于“克里金”地理统计学(Kriging geostatistics),被称为是“马尔可夫链地理统计学”。这一马尔可夫链地理统计学方法仍在发展过程中。
编辑本段马尔可夫过程
马尔可夫过程,能为给定样品文本,生成粗略,但看似真实的文本:他们被用于众多供消遣的“模仿生成器”软件。马尔可夫链还被用于谱曲。 它们是后面进行推导必不可少的条件:(1)尺度间具有马尔可夫性质随机场从上到下形成了马尔可夫链,即 Xi 的分布只依赖于 Xi,与其他更粗 糙的尺度无关,这是因为 Xi 已经包含了所有位于其上层的尺度所含有的信息(2) 随机场像素的条件独立性若 Xi 中像素的父节点已知,则 Xi 中的像素彼此独立这一性质使我们不必再 考虑平面网格中相邻像素间的关系,而转为研究尺度间相邻像素(即父子节点)间的关系(3) 设在给定 Xn 的情况下,Y 中的像素彼此独立(4) 可分离性若给定任一节点 xs,则以其各子节点为根的子树所对应的变量相互独立 从只有一个节点的根到和图像大小一致的叶子节点,建立了完整的四叉树模型,各层间的马尔可夫链的因 果关系使我们可以由非迭代的推导过程快速计算出 X 的最大后验概率或后验边缘概率
编辑本段模型
完整的四叉树模型也存在一些问题(1) 因概率值过小,计算机的精度难以保障而出现下溢,若层次多,这一 问题更为突出虽然可以通过取对数的方法将接近于 0 的小值转换成大的负值,但若层次过多、概率值过小,该 方法也难以奏效,且为了这些转换所采用的技巧又增加了不少计算量(2) 当图像较大而导致层次较多时,逐层 的计 算甚 为繁琐 下 溢 现 象肯定 会出 现 , 存储中 间变 量也 会占 用大 量空 间 , 在时 间空间 上都 有更 多的 开销 (3) 分层模型存在块效应,即区域边界可能出现跳跃,因为在该模型中,同一层随机场中相邻的像素不一定有同 一个父节点,同一层的相邻像素间又没有交互,从而可能出现边界不连续的现象
编辑本段MRF 模型
为了解决这些问题,我们提出一种新的分层 MRF 模型——半树模型,其结构和图1 5类似,仍然是四叉树, 只 是层数比完整的四叉树大大减少,相当于将完整的四叉树截为两部分,只取下面的这部分模型最下层仍和图像 大小一致,但最上层则不止一个节点完整的四叉树模型所具有的性质完全适用于半树模型,不同点仅在于最上层,完整的树模型从上到下构成 了完整的因果依赖性,而半树模型的层间因果关系被截断,该层节点的父节点及祖先均被删去,因此该层中的各 节点不具有条件独立性,即不满足上述的性质 2,因而对这一层转为考虑层内相邻节点间的关系半树模型和完 整的树模型相比,层次减少了许多,这样,层次间的信息传递快了,概率值也不会因为过多层次的逐层计算而小 到出现下溢但第 0 层带来了新的问题,我们必须得考虑节点间的交互,才能得出正确的推导结果,也正是因为在 第 0 层考虑了相邻节点间的影响,使得该模型的块现象要好于完整的树模型对于层次数的选取,我们认为不宜多,太多则达不到简化模型的目的,其优势体现不出来,但也不能太少,因 为第 0 层的概率计算仍然要采用非迭代的算法,层数少表明第 0 层的节点数仍较多,计算费时,所以在实验中将 层数取为完整层次数的一半或一半稍少
编辑本段MPM 算法
3半树模型的 MPM 算法 图像分割即已知观测图像 y,估计 X 的配置,采用贝叶斯估计器,可由一个优化问题来表示: x = arg min [E C ( x, x )′ | Y = y] ,x其中代价函数 C 给出了真实配置为 x 而实际分割结果为 x′时的代价在已知 y 的情况下,最小化这一代价的期 望,从而得到最佳的分割代价函数取法不同得到了不同的估计器,若 C(x,x′)=1δ(x,x′)(当 x=x′时δ(x,x′)=1,否则 δ(x,x′)=0)得到的是 MAP 估计器,它意味着 x 和 x′只要在一个像素处有不同,则代价为 1,对误分类的惩罚比较重,汪西莉 等:一种分层马尔可夫图像模型及其推导算法 而在实际中存在一些误分类是完全允许的若将半树模型的 MPM 算法记为 HT-MPM,它分为向上算法和向下算法两步,向上算法自下而上根据式(2)、 式 (3)逐层计 算P(yd(s)|xs)和 P(xs,xρ(s)|yd(s)), 对最下层 P(yd(s)|xs)=P(ys|xs) 向下算法自上 而下根据 式 (1)逐层计算 P(xs|y),对最上层由 P(x0|y)采样 x0(1),…,x0(n),
编辑本段详细说明
马尔可夫链,因安德烈·马尔可夫(AAMarkov,1856-1922)得名,是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的。 时间和状态都是离散的马尔可夫过程称为马尔可夫链, 简记为Xn = X(n),n = 1,2,3,4····。 马尔可夫链是随机变量的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为“状态空间”,而Xn的值则是在时间n的状态。如果Xn + 1对于过去状态的条件概率分布仅是Xn的一个函数,则 这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。 马尔可夫在1906年首先做出了这类过程 。而将此一般化到可数无限状态空间是由柯尔莫果洛夫在1936年给出的。 马尔可夫链与布朗运动以及遍历假说这两个二十世纪初期物理学重要课题是相联系的,但马尔可夫寻求的似乎不仅于数学动机,名义上是对于纵属事件大数法则的扩张。 马尔可夫链是满足下面两个假设的一种随机过程: 1、t+l时刻系统状态的概率分布只与t时刻的状态有关,与t时刻以前的状态无关; 2、从t时刻到t+l时刻的状态转移与t的值无关。一个马尔可夫链模型可表示为=(S,P,Q),其中各元的含义如下: 1)S是系统所有可能的状态所组成的非空的状态集,有时也称之为系统的状态空间,它可以是有限的、可列的集合或任意非空集。本文中假定S是可数集(即有限或可列)。用小写字母i,j(或Si,Sj)等来表示状态。 2)是系统的状态转移概率矩阵,其中Pij表示系统在时刻t处于状态i,在下一时刻t+l处于状态i的概率,N是系统所有可能的状态的个数。对于任意i∈s,有。 3)是系统的初始概率分布,qi是系统在初始时刻处于状态i的概率,满足。
编辑本段基本性质
马尔可夫链模型的性质 马尔可夫链是由一个条件分布来表示的 P(Xn + 1 | Xn) 这被称为是随机过程中的“转移概率”。这有时也被称作是“一步转移概率”。二、三,以及更多步的转移概率可以导自一步转移概率和马尔可夫性质: 同样: 这些式子可以通过乘以转移概率并求k−1次积分来一般化到任意的将来时间n+k。 边际分布P(Xn)是在时间为n时的状态的分布。初始分布为P(X0)。该过程的变化可以用以下的一个时间步幅来描述: 这是Frobenius-Perron equation的一个版本。这时可能存在一个或多个状态分布π满足: 其中Y只是为了便于对变量积分的一个名义。这样的分布π被称作是“平稳分布”(Stationary Distribution)或者“稳态分布”(Steady-state Distribution)。一个平稳分布是一个对应于特征根为1的条件分布函数的特征方程。 平稳分布是否存在,以及如果存在是否唯一,这是由过程的特定性质决定的。“不可约”是指每一个状态都可来自任意的其它状态。当存在至少一个状态经过一个固定的时间段后连续返回,则这个过程被称为是“周期的”。
编辑本段离散状态
离散状态空间中的马尔可夫链模型 如果状态空间是有限的,则转移概率分布可以表示为一个具有(i,j)元素的矩阵,称之为“转移矩阵”: Pij = P(Xn + 1 = i | Xn = j) 对于一个离散状态空间,k步转移概率的积分即为求和,可以对转移矩阵求k次幂来求得。就是说,如果是一步转移矩阵,就是k步转移后的转移矩阵。 平稳分布是一个满足以下方程的向量: 在此情况下,稳态分布π 是一个对应于特征根为1的、该转移矩阵的特征向量。 如果转移矩阵不可约,并且是非周期的,则收敛到一个每一列都是不同的平稳分布π ,并且, 独立于初始分布π。这是由Perron-Frobenius theorem所指出的。 正的转移矩阵(即矩阵的每一个元素都是正的)是不可约和非周期的。矩阵被称为是一个随机矩阵,当且仅当这是某个马尔可夫链中转移概率的矩阵。 注意:在上面的定式化中,元素(i,j)是由j转移到i的概率。有时候一个由元素(i,j)给出的等价的定式化等于由i转移到j的概率。在此情况下,转移矩阵仅是这里所给出的转移矩阵的转置。另外,一个系统的平稳分布是由该转移矩阵的左特征向量给出的,而不是右特征向量。 转移概率独立于过去的特殊况为熟知的Bernoulli scheme。仅有两个可能状态的Bernoulli scheme被熟知为贝努利过程
编辑本段现实应用
马尔可夫链模型的应用
科学中的应用
马尔可夫链通常用来建模排队理论和统计学中的建模,还可作为信号模型用于熵编码技术,如算法编码。马尔可夫链也有众多的生物学应用,特别是人口过程,可以帮助模拟生物人口过程的建模。隐蔽马尔可夫模型还被用于生物信息学,用以编码区域或基因预测。 马尔可夫链最近的应用是在地理统计学(geostatistics)中。其中,马尔可夫链用在基于观察数据的二到三维离散变量的随机模拟。这一应用类似于“克里金”地理统计学(Kriging geostatistics),被称为是“马尔可夫链地理统计学”。这一马尔可夫链地理统计学方法仍在发展过程中。
人力资源中的应用
马尔可夫链模型主要是分析一个人在某一阶段内由一个职位调到另一个职位的可能性,即调动的概率。该模型的一个基本假设就是,过去的内部人事变动的模式和概率与未来的趋势大体相一致。实际上,这种方法是要分析企业内部人力资源的流动趋势和概率,如升迁、转职、调配或离职等方面的情况,以便为内部的人力资源的调配提供依据。 它的基本思想是:通过发现过去组织人事变动的规律,以推测组织在未来人员的供给情况。马尔可夫链模型通常是分几个时期收集数据,然后再得出平均值,用这些数据代表每一种职位中人员变动的频率,就可以推测出人员变动情况。 具体做法是:将计划初期每一种工作的人数量与每一种工作的人员变动概率相乘,然后纵向相加,即得到组织内部未来劳动力的净供给量。其基本表达式为: Ni(t):t时间内I类人员数量; Pji:人员从j类向I类转移的转移率; Vi(t):在时间(t-1,t)I类所补充的人员数。 企业人员的变动有调出、调入、平调、晋升与降级五种。表3 假设一家零售公司在1999至2000年间各类人员的变动情况。年初商店经理有12人,在当年期间平均90%的商店经理仍在商店内,10%的商店经理离职,期初36位经理助理有 11%晋升到经理,83%留在原来的职务,6%离职;如果人员的变动频率是相对稳定的,那么在2000年留在经理职位上有11人(12×90%),另外,经理助理中有4人(36×83%)晋升到经理职位,最后经理的总数是15人(11+4)。可以根据这一矩阵得到其他人员的供给情况,也可以计算出其后各个时期的预测结果。
参考资料来自百科!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)