如何用Stata命令消除多重共线性问题_安全

影响
（1）完全共线性下参数估计量不存在
（2）近似共线性下OLS估计量非有效
多重共线性使参数估计值的方差增大，1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)如果方差膨胀因子值越大，说明共线性越强。相反因为，容许度是方差膨胀因子的倒数，所以，容许度越小，共线性越强。可以这样记忆：容许度代表容许，也就是许可，如果，值越小，代表在数值上越不容许，就是越小，越不要。而共线性是一个负面指标，在分析中都是不希望它出现，将共线性和容许度联系在一起，容许度越小，越不要，实际情况越不好，共线性这个“坏蛋”越强。进一步，方差膨胀因子因为是容许度倒数，所以反过来。
总之就是找容易记忆的方法。
（3）参数估计量经济含义不合理
（4）变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外
（5）模型的预测功能失效。变大的方差容易使区间预测的“区间”变大，使预测失去意义。
需要注意：即使出现较高程度的多重共线性，OLS估计量仍具有线性性等良好的统计性质。但是OLS法在统计推断上无法给出真正有用的信息。
判断方法
如图，是对德国人口老龄化情况的分析，其中y是老龄化情况，线性回归的x1、x2、x3分别为人均国内生产总值、出生率、每个医生平均负担人口数。
判断方法1：特征值，存在维度为3和4的值约等于0，说明存在比较严重的共线性。
判断方法2：条件索引列第3第4的值大于10，可以说明存在比较严重的共线性。
判断方法3：比例方差内存在接近1的数（099），可以说明存在较严重的共线性。
解决方法
（1）排除引起共线性的变量
找出引起多重共线性的解释变量，将它排除出去，以逐步回归法得到最广泛的应用。
（2）差分法
时间序列数据、线性模型：将原模型变换为差分模型。
（3）减小参数估计量的方差：岭回归法（Ridge Regression）。
（4）简单相关系数检验法

多重共线性指自变量问存在线性相关关系，即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。若存在多重共线性，计算自变量的偏回归系数β时，矩阵不可逆，导致β存在无穷多个解或无解。
而在使用多元线性回归构建模型过程中，变量之间存在多重共线性问题也是比较常见的。那么当发现多重线性回归模型中存在多重共线性时我们该如何处理呢？
可通过以下方法予以解决：
(1)逐步回归
使用逐步回归可以在一定程度上筛选存在多重共线性的自变量组合中对反应变量变异解释较大的变量，而将解释较小的变量排除在模型之外。
但这种方法缺点是当共线性较为严重时，变量自动筛选的方法并不能完全解决问题。
(2) 岭回归
岭回归为有偏估计，但能有效地控制回归系数的标准误大小。
(3) 主成分回归
可以使用主成分分析的方法对存在多重共线性的自变量组合提取主成分，然后以特征值较大的（如大于1）几个主成分与其他自变量一起进行多重线性回归。得出的主成分回归系数再根据主成分表达式反推出原始自变量的参数估计。
该方法在提取主成分时丢失了一部分信息，几个自变量间的多重共线性越强，提取主成分时丢失的信息越少。
(4) 路径分析
如果对自变量间的联系规律有比较清楚的了解，则可以考虑建立路径分析模型，以进行更深入的研究。

在SPSS中有专门的选项的。例如在回归分析中，线性回归-统计量-有共线性诊断。
多重共线性：自变量间存在近似的线性关系，即某个自变量能近似的用其他自变量的线性函数来描述。
多重共线性的后果：
整个回归方程的统计检验P<a，但所有偏回归系数的检验均无统计学意义。
偏回归系数的估计值大小明显与常识不符，甚至连符号都是相反的。比如拟合结果表明累计吸烟量越多，个体的寿命就越长。
在专业知识上可以肯定对应变量有影响的因素，在多元回归分析中却P>a，不能纳入方程
去掉一两个变量或记录，方程的回归系数值发生剧烈抖动，非常不稳定。
多重共线性的确认：
做出自变量间的相关系数矩阵：如果相关系数超过09的变量在分析时将会存在共线性问题。在08以上可能会有问题。但这种方法只能对共线性作初步的判断，并不全面。
容忍度（Tolerance）:有 Norusis 提出，即以每个自变量作为应变量对其他自变量进行回归分析时得到的残差比例，大小用1减决定系数来表示。该指标越小，则说明该自变量被其余变量预测的越精确，共线性可能就越严重。陈希孺等根据经验得出：如果某个自变量的容忍度小于01，则可能存在共线性问题。
方差膨胀因子（Variance inflation factor, VIF）: 由Marquardt于1960年提出，实际上就是容忍度的倒数。
特征根（Eigenvalue）：该方法实际上就是对自变量进行主成分分析，如果相当多维度的特征根等于0，则可能有比较严重的共线性。
条件指数（Condition Idex）：由Stewart等提出，当某些维度的该指标数值大于30时，则能存在共线性。
多重共线性的对策：
增大样本量，可部分的解决共线性问题
采用多种自变量筛选方法相结合的方式，建立一个最优的逐步回归方程。
从专业的角度加以判断，人为的去除在专业上比较次要的，或者缺失值比较多，测量误差比较大的共线性因子。
进行主成分分析，用提取的因子代替原变量进行回归分析。
进行岭回归分析，它可以有效的解决多重共线性问题。
进行通径分析（Path Analysis），它可以对应自变量间的关系加以精细的刻画。Spss可以进行比较基本的通径分析，但复杂的模型需要使用SPSS公司的另外一个软件AMOS来进行。

*** 作步骤：1、先打开回归的对话框：analyse--regression--linear，打开线性回归对话框；2、将自变量因变量都放到各自的位置，然后点击statistic；3、在该对话框中，有一个多重共线性诊断的选项，勾选他，如图所示，点击continue按钮，返回主对话框；4、点击ok按钮，开始输出诊断结果；5、特征根（Eigenvalue）：多个维度特征根约为0证明存在多重共线性；条件指数（ConditionIndex）：大于10时提示我们可能存在多重共线性，相关系数矩阵，找到数值接近1的相关，这也提示出可能存在多重共线性。

多重共线性的产生原因、判别、检验、解决方法
分类：
数据挖掘（6）
最近做回归分析，出现了相关系数与回归方程系数符号相反的问题，经过研究，确认是多重共线性问题并探索了解决方法。
在此将多重共线性的相关知识整理如下。
解释变量理论上的高度相关与观测值高度相关没有必然关系，有可能两个解释变量理论上高度相关，但观测值未必高度相关，反之亦然。所以多重共线性本质上是数据问题。
造成多重共线性的原因有一下几种：
1、解释变量都享有共同的时间趋势；
2、一个解释变量是另一个的滞后，二者往往遵循一个趋势；
3、由于数据收集的基础不够宽，某些解释变量可能会一起变动；
4、某些解释变量间存在某种近似的线性关系；
判别：
1、发现系数估计值的符号不对；
2、某些重要的解释变量t值低，而R方不低
3、当一不太重要的解释变量被删除后，回归结果显著变化；
检验；
1、相关性分析，相关系数高于08，表明存在多重共线性；但相关系数低，并不能表示不存在多重共线性；
2、vif检验；
3、条件系数检验；
解决方法：
1、增加数据；
2、对模型施加某些约束条件；
3、删除一个或几个共线变量；
4、将模型适当变形；
5、主成分回归
处理多重共线性的原则：
1、多重共线性是普遍存在的，轻微的多重共线性问题可不采取措施；
2、严重的多重共线性问题，一般可根据经验或通过分析回归结果发现。如影响系数符号，重要的解释变量t值很低。要根据不同情况采取必要措施。
3、如果模型仅用于预测，则只要拟合程度好，可不处理多重共线性问题，存在多重共线性的模型用于预测时，往往不影响预测结果；

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12610889.html

如何用Stata命令消除多重共线性问题

发表评论

评论列表（0条）