面板数据是指既有截面数据又有时间序列的数据,因此其存在截面数据没有的优势,在用stata进行面板数据的估计时,一般选择xtreg命令进行拟合。本节主要论述短面板的stata实现,即时间维度T相对于截面数n较小的数据。在那种情况下,由于T较小,每个个体的信息较少,故无从讨论扰动项是否存在自相关,我们一般假设其独立同分布。
面板数据维度的确定
在面板数据进行模型估计前,要进行面板数据的维度确定。由于面板数据既有截面数据又有时间序列,而stata不能自动识别,因此,必须使得stata得知哪一部分是截面数据,而哪一部分是时间序列。
设置面板数据维度的基本命令为:
xtset panelvar timvar [, tsoptions]
其中panelvar代表截面数据变量,timvar代表时间序列变量。
选取某一面板数据进行维度设定:
xtset fcode year
在读 paper 的时候,发现自己对短面板的框架逻辑有不全面的地方,在这里对各位读者说声对不起!
这是船新的版本,我将自己的理解融入其中,笔记顺序与教材不同。
毕竟我也是现学现卖,敬请谅解!
此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。
我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分( 包括证明和正文 )做了修改。
目录
面板数据 ( panel data ),也译为 平行数据 ( longitudinal data ),指的是在一段时间内跟踪同一组个体( individual )的数据。它既有横截面的维度(个个体 ),又有时间维度(个时期 )。
通常的面板数据较小,而较大,在使用大样本理论时让。这种面板数据被称为 短面板 ( short panel )。反之,如果较大而较小,则被称为 长面板 ( long panel )。
如果在面板数据中,每个时期的样本中的个体完全一样,则称为 平衡面板数据 ( balanced panel );反之,则称为 非平衡面板数据
在面板 模型 中,如果解释变量包含被解释变量的滞后值,则称为 动态面板 ( dynamic panel );反之,称为 静态面板 ( static panel )
(1) 面板数据的优点
(2) 截面数据的缺点
当然,截面数据也会带来一些问题:
估计面板数据的 一个极端策略 是将其看成横截面数据而进行 混合回归 ( pooled regression ),即要求样本中每个个体都拥有完全相同的回归方程( 在 15.3 讨论 )。 另一个极端策略 是为每个个体估计一个单独的回归方程。
前者忽略了个体间不可观测或被遗漏的异质性,而该异质性可能与解释变量相关而导致估计不一致;后者则忽略了个体间的共性,也可能没有足够的的样本容量。
因此,在实践中常常采用折衷的估计策略:即假定个体的回归方程拥有 相同的斜率 ,但可以拥有 不同的截距 ,以此来捕捉异质性,如 图 15.1 所示:
这种模型被称为 个体效应模型 ( individual-specific effects model ),其模型形式为:
其中, 为不随时间而变( time invariant )的个体特征( 即),比如性别;而则可以随个体及时间而变( time-varying )。扰动项由两部分构成,成为 复合扰动项 ( composite erroe term ),而方程也称为 复合扰动项模型 ( error compoents model )。
较早的文献有时将视为 常数 ,但这也只是随机变量的特例,即退化的随机变量;而为随个体与时间而改变的扰动项。
我们主要关注,这是因为“个体效应模型”的 个体特征 来源于。在 几何上 代表个体异质性的截距;在 统计上 则代表一个扰动项:
在短面板,我们假设为独立同分布(长面板可以放松此假定),且与不相关。另外,
显然,与截面数据相比,面板数据提供了更为丰富的模型与估计方法。
如果所有个体都拥有完全一样的回归方程,也就是说每个个体 连截距项都相同 ,那么方程的就都相等。我们记为截距,即,那么方程就可以写成:
其中, 不包含常数项。这样,就可以把所有的数据放在一起,像对待横截面数据那样进行 OLS 回归,故被称为 混合回归 ( polled regression )。混合回归可以被称为 总体平均估计量 ( Population-averaged estimator, PA),因为可以把它理解为 将个体效应都平均掉了 。
由于面板数据的特点,虽然通常可以假设不同个体之间的扰动项相互独立,但同一个体在不同时间的扰动项之间往往存在自相关。此时,对标准误的估计应该使用 聚类稳健的标准误 ( cluster-robust standard error ),而所谓聚类( cluster ),就是由每个个体不同时期的所有观测值所组成。同一聚类(个体)的观测值允许存在相关性,而不同聚类(个体)的观测值则不相关。
混合回归的基本假设是 不存在个体效应 。 对于这个假设必须进行统计检验 。由于个体效应以两种不同的形态存在:固定效应、随机效应,故在下面会分别介绍其检验方法。
固定效应模型是指与某个解释变量 或 相关的个体效应模型。换句话说,由于存在一些遗漏变量,使得与解释变量产生内生性。所以,固定效应模型求解的关键就是 如何排除内生性的干扰 !
总的来看,与某个解释变量 或 相关分成两种情况:
我们下面来探讨如何对两种固定效应模型进行处理。
如果与某个解释变量 或 相关,那么此个体效应模型就变成了 固定效应模型 。这种情况下, OLS估计是不一致的 。为了得到一致的估计量,解决的方法是将模型转换,并将消去。
给定个体,将方程两边对时间取平均,可得:
用则可以得到原模型的 离差形式 :
定义:
那么就变成了:
在公式中, 已经被消去,故只要与不相关,就可以使用 OLS 一致地估计,称为 固定效应估计量 ( Fixed Effects Estimator ),记为。由于使用了每个个体的组内离差信息,故也被称为 组内估计量 ( within estimator )。即使个体特征与解释变量相关,只要使用组内估计量,就可以得到一致估计,这是面板数据的一大优势。
然而,在作离差变换的过程中, 也被消掉了,于是无法估计。也就是说固定效应模型无法估计不随时间而变的变量的影响,这是 FE 的一大缺点。另外,为了保证与不相关,则要求第个观测值满足严格外生性,即:
这是因为中包含了的所有信息。换言之,扰动项必须与各期的解释变量均不相关,这是一个比较强的假定。
如果在原方程中引入个虚拟变量(如果没有截距,则引入个虚拟变量)来代表不同的个体,则可以得到与上述离差模型同样的结果,即:
其中,个体虚拟变量如果;否则。可以用 OLS 估计此方程,而且我们可以证明, LSDV 法与组内估计量 FE 完全一样。因此,FE 也被称为 最小二乘虚拟变量模型 ( Least Square Dummy Variable Model, LSDV)
不过,如果作完 LSDV 后发现某些个体的虚拟变量不显著将其删去,那么 LSDV 的结果就不会与 FE 相同。使用 LSDV 的好处是可以得到对个体异质性的估计(模型中的 ),但如果很大,则需要在回归方程中加入很多虚拟变量,可能超出一些计量软件的最大解释变量数量。
LSDV 法深受不少研究者的喜爱,因为它 *** 作简便,可解释性也强。
考虑固定效应模型,可以对个体效应模型进行差分处理:
于是,把两个方程相减,就可以得到一阶差分方程,从而消除个体效应:
对此差分模型使用 OLS 估计即得到 一阶差分估计量 ( First Differencing Estimator ),记为。由于不再出现在差分方程中,只要扰动项的一阶差分与解释变量的一阶差分不相关,则就是一致的,这比的严格外生性要求更弱,是的优点。
不过,可以证明,在下,比更有效率。因此,在实践上,主要使用而不是。但对于动态面板,严格外生性无法满足,则主要用。
上面的个体固定效应解决了不随时间而变但随个体而变(time invariant)的遗漏变量问题。
类似地,引入时间固定效应,则可解决不随个体而变但随时间而变(individual invariant)的遗漏变量问题。
假设模型为:
其中, 不可观测,定义,则上式可以写成:
在上式,可将视为第期独有的截距项,并将其解释为 第 期 对被解释变量的效应。于是,这些称为 时间固定效应 (time fixed effects)。
显然,这个模型可以用 LSDV 法来估计,即对每时期定义一个虚拟变量,然后把个时间虚拟变量包括在回归方程中,比如:
其中,时间虚拟变量如果否则。对于上面的式子,既考虑了个体固定效应( 的 )、又考虑了时间固定效应( 的 ),所以称为 双向固定效应 (Two-way FE)。相应的,如果仅考虑个体固定效应(如15.4.1 的模型)则称为 单向固定效应 (One-way FE)。
有些情况,为了节省参数,可以引入时间趋势项,以代替个时间虚拟变量:
显然,这个式子隐含着一个较强的假定:每个时期的时间效应应该增长, 随时间是均匀增长的。
如果此假定不大可能成立,那么就应该使用 a. 的时间虚拟变量法;该方法可以独立估计每一期的时间固定效应,也可以用于判断每期的时间效应是否大致相等。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)