协方差的意义_安全

什么是协方差，为什么有些地方会用到协方差。

核心意义：度量各个维度偏离其均值的程度。协方差的值如果为正值，则说明两者是正相关的(从协方差可以引出“相关系数”的定义)，结果为负值就说明负相关的，如果为0，也是就是统计上说的“相互独立”。

正相关和负相关的直观理解：

特点：当 X, Y 的联合分布像上图那样时，我们可以看出，大致上有： X 越大 Y 也越大， X 越小 Y 也越小，这种情况，我们称为“正相关”。

特点：当X, Y 的联合分布像上图那样时，我们可以看出，大致上有：X 越大Y 反而越小，X 越小 Y 反而越大，这种情况，我们称为“负相关”。

特点：当X, Y 的联合分布像上图那样时，我们可以看出：既不是X 越大Y 也越大，也不是 X 越大 Y 反而越小，这种情况我们称为“不相关”。

怎样将这3种相关情况，用一个简单的数字表达出来呢？
在图中的区域（1）中，有 X>EX ，Y-EY>0 ，所以(X-EX)(Y-EY)>0；
在图中的区域（2）中，有 X<EX ，Y-EY>0 ，所以(X-EX)(Y-EY)<0；
在图中的区域（3）中，有 X<EX ，Y-EY<0 ，所以(X-EX)(Y-EY)>0；
在图中的区域（4）中，有 X>EX ，Y-EY<0 ，所以(X-EX)(Y-EY)<0。

重点解释：所谓正相关。只是说某种分布主要覆盖区域（1）与区域（3），例如997%数据是这种特性，极少数据覆盖区域（2）与区域（4）
同理，所谓负相关，应该是某种分布主要覆盖（2）、（4），极小部分覆盖（1）、（3）。
所谓不相关，等于（1）（2）（3）（4）分布都差不多。

数值绝对值大小，应该表示这种相关性的强烈程度。

从公式上看：

上图是方差的公式，用以度量各个维度偏离其均值的程度。

协方差公式由方差的公式推广而来，用于描述维度之间的线性相关性。

从协方差的定义上我们也可以看出一些显而易见的性质，如：

具体如何计算？
例如有如下数据：

每一列表示一个维度，每一行表示一个样本。
如何计算协方差？当然，我们有api，如果不使用api，是否能自己写？我们按照公式，写了如下测试程序：

计算出维度之间的协方差，我们就可以组织协方差矩阵。协方差矩阵可以快速定位维度之间的协方差。

上述解释详见下面文章：
＃终于明白协方差的意义了

在统计学与概率论中，协方差矩阵（Matrice de variance-covariance）的每个元素是各个向量元素之间的协方差，是从标量随机变量到高维度随机向量的自然推广。

（1）正确,因为按照定义,X与Y的协方差等于Y与X的协方差
（2）不正确例如矩阵
1
1
1
-1
的特征值一个是（根号2）,另一个是（-根号2）

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12911803.html

协方差的意义

发表评论

评论列表（0条）