虚拟变量数据是是人为设定的用于将分类变量引入回归模型中的数据。回归分析计算时是将所有自变量X视为数字,但当数据为定类数据时,此时数字代表类别,数字大小本身没有比较意义。因此,这类数据在做回归分析时,需要设置成虚拟变量才能纳入回归分析正确分析数据。
扩展资料:
模型中引入虚拟变量数据的作用:
1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑因素对国民经济的破坏性影响,剔除不可比的因素。
2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。
3、提高模型的精度,相当于将不同属性的样本合并,扩大了样本容量(增加了误差自由度,从而降低了误差方差)。
虚拟变量是计量经济学研究中常用的用来 反映定性因素变化 的变量,例如季节变动、政策变动、宏观环境变化等等。之前对此有简单的了解,认为是非常简单直观的一种变量设定。直到最近写的论文中模型部分用到了虚拟变量,深入了解才发现问题多多。在充分搞清楚了 “虚拟变量陷阱” 之后,来适时地做一下总结,也算是温故知新。
虚拟变量的作用简单来说就是“数据分类器”,利用变量和变量的线性组合表示某一种特定的状态。
最容易让人感到比较难理解的就是“虚拟变量陷阱”了。首先是定义:如果模型中每个定性因素有m个相互排斥的类型, 且模型有截距项,则模型中只能引入m-1个虚拟变量, 否则会出现 完全多重共线性 ,称为 虚拟变量陷阱(dummy variable regression) 。
理解这个问题可以从两个角度出发:
1.理性角度: 重点放在为什么会出现“多重共线性上”,利用线性代数的知识就很容易理解。贴上人大经济论坛上一位网友的回答:
还有一个要注意的点: 若模型包含多个定性变量,且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度,故应权衡进入模型中虚拟变量的个数以免超过样本观察值的个数。 不过虚拟变量个数超过样本观测个数这种情况应该不太容易出现吧。。。0.0
暂时总结这么多,后续有继续学习的地方再补充~
虚拟变量虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。
例如,反映文程度的虚拟变量可取为:1:本科学历;0:非本科学历
一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。
模型中引入虚拟变量的作用
1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。
2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。
3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本容量(增加了误差自由度,从而降低了误差方差)
虚拟变量设置的原则
在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定:
如果有m种互斥的属性类型,在模型中引入(m-1)个虚拟变量。
例如,性别有2个互斥的属性,引用2-1=1个虚拟变量;再如,文化程度分小学、初中、高中、大学、研究生5类,引用4个虚拟变量。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)