R语言之多重共线性的判别以及解决方法_随笔

R语言之多重共线性的判别以及解决方法　　多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

1.可以计算X矩阵的秩qr(X)$rank，如果不是满秩的，说明其中有Xi可以用其他的X的线性组合表示； 2.也可以计算条件数kappa(X)，k<100,说明共线性程度小；如果100<k<1000，则存在较多的多重共线性;若k>1000，存在严重的多重共线性。

例如：

collinear<-data.frame(
   Y=c(10.006, 9.737, 15.087, 8.422, 8.625, 16.289,
        5.958, 9.313, 12.960, 5.541, 8.756, 10.937),
   X1=rep(c(8, 0, 2, 0), c(3, 3, 3, 3)),
   X2=rep(c(1, 0, 7, 0), c(3, 3, 3, 3)),
   X3=rep(c(1, 9, 0), c(3, 3, 6)),
   X4=rep(c(1, 0, 1, 10), c(1, 2, 6, 3)),
   X5=c(0.541, 0.130, 2.116, -2.397, -0.046, 0.365,
        1.996, 0.228, 1.38, -0.798, 0.257, 0.440),
   X6=c(-0.099, 0.070, 0.115, 0.252, 0.017, 1.504,
        -0.865, -0.055, 0.502, -0.399, 0.101, 0.432)
)
XX<-cor(collinear[2:7])
kappa(XX,exact=TRUE) #exact=TRUE表示精确计算条件数；
[1] 2195.908    #大于1000，有严重的多重共线性
# eigen(XX)

处理时可以进行逐步回归，用step()命令,比如你一开始的模型是fm=lm(),step(fm)选择最小AIC信息统计量就可以了。

这种方法是排除引起共线性的变量，是解决多重共线性的比较常用方法！

3.可以使用方差膨胀因子(VIF)

library(car)
vif(lm.sol)

得到各个系数的方差膨胀因子，一般认为，当0<VIF<10，不存在多重共线性（注意：在《R语言实战》第2版P182中认为VIF>4就存在多重共线性）；当10≤VIF<100，存在较强的多重共线性，当VIF>=100，多重共线性非常严重。

是判断多重共线性的比较常用方法！　　

　　关于多重共线性的解决方法除了2中所说的逐步回归，还有一种方法是岭回归。

　　关于岭回归待补充

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/589599.html

R语言之多重共线性的判别以及解决方法

发表评论

评论列表（0条）