为什么控制变量可以降低估计值的误差

为什么控制变量可以降低估计值的误差,第1张

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里欢迎到计量经济圈社群交流访问

正文
注:下面的“预测变量”一词在英文中为predictor,就是我们平常说的自变量。标题应该是选择正确的自变量(控制变量)
即使只有少数预测变量可供选择,也有无数种方法可以指定回归方程右侧的变量。如何决定要包含哪些控制变量?选择变量时最重要的考虑因素是其理论相关性(theoretical relevance)。当你在没有合理理论的基础上增加变量(也被称为“回归比你想的还要快”)时,很多事情都会出错。当然,“听起来合理”的定义有点模糊,你可能剔除掉太多的变量同样会造成伤害。
下面这几点阐述了模型识别中涉及的权衡因素。
1厨房水槽(Kitchen sink)
毫无疑问,您会遇到包含数十个变量的“厨房水槽(Kitchen sink)”回归。这通常表明研究者已经脑死亡,往模型里扔进了所有可用的预测变量,而不考虑他们实际上有什么作用。如果数据集中有成千上万的预测变量,谁知道研究者会做什么呢?(更不用说指数形式和交互项的可能性了!)
一点点试错是完全可以的。毕竟,有时一个问题是如此新,以至于我们没有任何理论可以指导我们建模。或者有时我们知道我们想要某种类型的变量(例如,某种程度的教育),但我们不知道衡量它的最好方法(例如,“受过大学教育的人口百分比”与“拥有高等学历的人口百分比”。)。即使如此,一定要尽量抵制诱惑,不要把你所掌握的每一个变量都包括进去。厨房水槽回归会降低回归精度,甚至会产生误导性的结果。
我使用垃圾变量(junk variable)这个术语来描述回归中包含的一个变量——只因为它在你的数据集中,而不是因为它的理论相关性。我们知道不让垃圾变量在回归中的一个实际原因:添加任意变量会消耗宝贵的自由度(df)。这会降低所有有效预测变量估计值的精度(即增加标准误差)。这种“不想要的不精确性”效应在你没有大量观察值的情况下尤其明显。
以下是一些有价值的经验法则:
1)Use no more than one predictor for every 5 observations if you have a good predictive model (most predictors significant)
2)You no more than one predictor for every 10 observations if you have a weaker model (few predictors significant) or you are experimenting with a lot of junk variables
3)You can cut yourself some slack if you have categorical variables Treat each included category as a half of a normal predictor
有更多的理由不让垃圾变量进入你的回归方程
当你引入垃圾变量时,即使你有足够的df来获得重要发现,至少还有三个潜在的问题:
1) 由于随机性,垃圾变量可能统计显著。如果你引入10个垃圾变量,有40%的几率至少有一个是有显著的,不过这是由于随机性。如果有人试图用不同的数据重现你的发现,他们通常无法重现你的垃圾结果。你的粗制滥造的方法就会暴露给所有人看。
2) 与另一个有效预测变量相关的垃圾变量,也可能与方程左边的变量有很强的相关性。这可能会使有效的预测变量变得不再显著,从而你可能会将其从模型中剔除。(这与多重共线性有关)。厨房水槽越大,发生这种情况的可能性就越大。
3) 向模型中添加一些变量可能会影响你对其他变量系数的解释。当一个方程右边的变量本身是另一个变量的函数时,就会发生上述情况。这个问题不像(1)和(2)那么严重,但是需要你在描述你的发现时格外小心。
当方程右边的变量是彼此的函数时,会发生什么情况,下面这是一个例子:




2变动(action)
当你进行回归分析时,你希望数据中有足够的信息精确地计算出X的变化是如何影响Y的。为了直观地掌握数据中有多少信息,把X和Y的每个观察值都看作是一个实验。如果X在一个实验和下一个实验之间变化不大,那么数据中就没有太多的信息,因此很难精确地确定X的变化对Y的影响。
因此,好的预测变量有行动——它们在观察值之间变动很多。您应该始终检查每个关键预测值的变动,例如通过计算其范围和标准误差。您还应该绘制每个关键预测值和因变量的二维图。预测值的极值可能会影响回归。当预测值从最低值移动到最高值时,Y变化很大吗?此图应预示回归结果(记住,简单的双向图掩盖了控制变量的影响)。
变动与多重共线性
现在是解决过度夸大的多重共线性问题的时候了。假设你有两个预测变量,X和Z,以及一个因变量Y。当你检查数据时,你会发现X,Y和Z都在一起移动。(也就是说,它们有很高的相关性)你现在很确定X或Z都会影响Y,也许两者都会。但你不能确定哪个更重要。不幸的是,计算机可能也无法解决这个问题。这是多重共线性。
让我们用变动的概念来更好地理解多重共线性。如果X和Z高度相关,那么它们的“实验”就不是独立的。这使得很难确定是哪一个引起了Y中的相关运动。因此,如果将两者都包括在回归中,计算机将报告其估计系数周围的大的标准误差,因为它无法确定哪个预测变量真正重要。
一个直接的启示是,有可能得到一个高R2,但没有任何重要的预测作用!把X和Z加在一起可以很好地预测Y,但是计算机不能确定哪一个才是真正的影响因素,所以R2很高,尽管显著性水平很低。在其他情况下,计算机可能会报告一个相关预测变量上的大正系数和另一个相关预测变量上的大负系数。当两个变量基本相同,并且计算机使用它们之间的细微差异来拟合一些异常值时,这种“符号翻转”经常出现。
多重共线性的迹象
尽管没有确定的多重共线性检验,但仍有一些情况值得我们注意:
1)您发现两个或多个相关变量在回归中联合进入模型时具有不显著的系数,但每次只有一个进入模型时,每个变量都具有显著的系数。
2)一个F检验表明,两个相关变量增加了模型的预测能力,尽管两者都没有显著的系数。
3)变量单独进入模型时具有相同的符号,但同时进入模型时具有相反的符号。
4)在运行回归之后,您可以让计算“方差通胀因子VIF“。
如果存在问题的多重共线性,则有以下几种选择:
1)保留所有变量;记住你的系数是无偏的,但不精确。你的模型仍然具有很强的预测性。
2)抛弃其中一个有问题的变量。
3)创建一个综合得分——一个单一的衡量指标,捕捉相关变量中的信息。
3 遗漏变量问题
在选择方程右边的变量时,有太多的原因需要精简的模型,以至于你可能会试图只使用一个预测变量来运行回归。现在是时候把事情放在正确的角度,记住为什么我们要添加控制变量。
1)它提高了模型的预测能力,并在此过程中提高了估计的精度。
2)排除相关变量可能会使系数偏向模型中包括的变量。换句话说,由于遗漏变量偏差,计算机报告的值系统地高于或低于实际值。
处理遗漏变量偏差
似乎遗漏变量偏差会困扰每一次回归。毕竟,不可能得到所有影响因变量的因素的数据。在某种程度上这是真的,这就是为什么我们总是在回归中考虑可能的偏差。幸运的是,遗漏变量偏差通常是一个可控的问题,原因有三:
1)仅当遗漏的变量与模型中包括的变量相关且本身很重要时,才会导致有偏系数。如果这两个条件都不能成立,就没有偏差。
2)即使存在遗漏变量问题,也可以确定偏差的方向。这将允许我们声明所报告的系数是实际效果的上界或下界。
3)对遗漏变量偏差的思考,迫使我们首先要认真识别正确的经济模型,做好变量选择工作。
4 内生性偏差
如果方程右边的变量与原模型中的误差相关,则称其为内生变量。一般来说,我们很难解释内生预测变量的系数。他们可能有偏差和/或不可能得出因果关系的结论。
5 回归建模的一种合理方法
以下方法平衡了”厨房水槽“和”遗漏变量偏差“问题。你可能做得比遵循以下步骤更糟:
1)总是从一组具有理论相关性的“核心”预测变量开始,以及任何你特别感兴趣的预测变量开始。此时,您可能会估计一个“快速而肮脏”的OLS模型。
2)最终确定模型构建问题(例如,对数与线性)。
3)添加您认为可能相关的其他预测变量。您可以一次添加一个或一次添加一个“类别”。检查你最初发现的稳健性。
4)添加预测变量时,应保留模型中的所有原始预测变量,即使它们不显著。记住,被遗漏变量偏差会导致显著的预测值看起来不重要。通过增加更多的变量,你的关键预测因素可能变得重要。
5)在这一点上,你应该知道你稳健发现。这是你研究的主要目标。
6)如果你坚持要生成一个“最终模型”,那么你应该删除那些没有统计显著意义的额外预测变量。
7)如果核心预测变量仍然不显著并且你需要更多自由度,也可以删除它们。
6 组别变量问题
许多预测变量可以整齐地分为几个组:季节、竞争对手的价格、消费者人口统计、50个州。您通常希望确定一组预测变量是否应该放在回归方程这种。(“季节性重要吗?“竞争对手的价格重要吗?分析员经常单独检查一组中每个预测变量的系数,并保留那些重要的系数。这是一个错误,我现在将解释。
检验一组变量的正确方法是进行”偏F检验“,也称为Chow检验,它比较模型在考虑和不考虑所有变量的情况下的预测能力。如果变量组没有共同增加预测能力,则不能拒绝这一组别无关的原假设。
Stata能为我们做F检验。假设您想知道变量X2和X3是否应该添加到包含变量X1的模型中。简单键入:
regress Y X1 X2 X3
test X2 X3
拓展性阅读
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2年,计量经济圈公众号近1000篇文章,
Econometrics Circle
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

以上就是关于为什么控制变量可以降低估计值的误差全部的内容,包括:为什么控制变量可以降低估计值的误差、、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9326017.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存