将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
扩展资料
样本的简单相关系数一般用r表示,计算公式为:
其中n 为样本量,Xi和X分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。
r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关。
利用样本相关系数推断总体中两个变量是否相关,可以用t 统计量对总体相关系数为0的原假设进行检验。若t 检验显著,则拒绝原假设,即两个变量是线性相关的;若t 检验不显著,则不能拒绝原假设,即两个变量不是线性相关的。
参考资料来源:百度百科-相关系数
线性回归方程公式相关系数r具体如下:
线性回归r2指的是相关系数,一般机器默认的是r2>099,这样才具有可行度和线性关系。 当根据试验数据进行曲线拟合时,试验数据与拟合函数之间的吻合程度,用一个与相关系数有关的一个量‘r平方’来评价,r^2值越接近1,吻合程度越高,越接近0,则吻合程度越低。
扩展知识:
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础。
通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。如R平方为08,则表示回归关系可以解释因变量80%的变异。
换句话说,如果我们能控制自变量不变,则因变量的变异程度会减少80%。相关表示两变量间的相互关系,是双方向的。而回归则表示Y随X而变化,这种关系是单方向的。医学资料中的有些资料用相关表示较适宜。
常见的相关系数为简单相关系数,简单相关系数又称皮尔逊相关系数或者线性相关系数。线性相关系数计算公式如图所示:
r值的绝对值介于0~1之间。通常来说,r越接近1,表示x与y两个量之间的相关程度就越强,反之,r越接近于0,x与y两个量之间的相关程度就越弱。
线性相关系数性质:
(1)定理: | ρXY | = 1的充要条件是,存在常数a,b,使得P{Y=a+bX}=1。
相关系数ρXY取值在-1到1之间,ρXY = 0时。
称X,Y不相关; | ρXY | = 1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系; | ρXY | < 1时,X的变动引起Y的部分变动,ρXY的绝对值越大,X的变动引起Y的变动就越大, | ρXY | > 08时称为高度相关,当 | ρXY | < 03时称为低度相关,其它时候为中度相关。
(2)推论:若Y=a+bX,则有。
证明: 令E(X) = μ,D(X) = σ。
则E(Y) = bμ + a,D(Y) = bσ。
E(XY) = E(aX + bX) = aμ + b(σ + μ)。
Cov(X,Y) = E(XY) − E(X)E(Y) = bσ。
若b≠0,则ρXY ≠ 0。
若b=0,则ρXY = 0。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)