怎么把stata的数据导出来

怎么把stata的数据导出来,第1张

首先,在Stata中输入代码(ssc install asdoc, replace)安装外部命令asdoc。

请点击输入图片描述

安装完成后,打开我们的数据,小编这里以Stata自带的数据auto为例。

请点击输入图片描述

下面做一个简单的描述性统计分析,并把结果直接导出到Word里。输入命令:asdoc sum。如图所示,Stata会自动生成一个名为“Myfile.doc”的文件。

请点击输入图片描述

请点击输入图片描述

点击打开Myfile.doc文件,可以看到,我们想要的描述性统计分析结果已经导出到该Word文档里了。

请点击输入图片描述

之后我们只需要调整下格式即可,是不是很方便呢?

请点击输入图片描述

用stata算集中指数采用Stata系统自带数据库auto.dta。

一、集中趋势的统计描述

变量price为例进行说明。

均数:采用mean price计算得6165.257。

算术均数、几何均数和调和均数可以采用means、ameans、gmeans、hmeans计算。

众数:没有对应的命令可以直接计算众数,但是可以通过几种策略进行变通计算。如通过egen x=mode(price)disp xdrop x,不过本例中price中没有相同的数值,所以无法计算众数;另外也可通过preservecontract price, freq(x)sum xlist price if x==r(max)restore 来显示。

中位数:centile price或tabstat price, s(med),当然tabstat还可以计算均数、样本量、标准差,标准误、方差、极差、四分位间距、变异系数、峰度系数、偏度系数等等很多指标。

不过采用Stata(summarize ,tabstat等命令)计算的峰度系数与Excel、SPSS和SAS计算的结果有所不同,原因是采用的公式不同,大家根据实际情况来选择。

二、离散趋势指标

极差(全距):tabstat price, s(r)

标准差:tabstat price, s(sd)

方差:tabstat price, s(v)

四分位间距:tabstat price, s(iqr)

变异系数:tabstat price, s(cv)

采用summarize , detail命令可以计算均数、标准差、峰度系数、偏度系数、多个百分位数。不加detial可以得到最大值、最小值。

广义矩估计 (Generalized Method of Moment, 简称 GMM) 是一种构造估计量的方法,类似于极大似然法 (MLE) 。MLE 通过假设随机变量服从特定的分布,进而将待估参数嵌入似然函数,通过极大化联合概率密度函数得到参数的估计值。GMM 则是以随机变量遵循特定矩的假设,而不是对整个分布的假设,这些假设被称为矩条件。这使得 GMM 比 MLE 更稳健,但会导致估计量的有效性有所降低 (估计出的标准误比较大)。

其中, N表示样本数, 表示y的第i个观察值 。此处,估计量 被称为矩估计量(the method of moments estimator),简称MM估计量。这是因为,该估计量的构造以母体矩条件(population moment condition)为基础,进而用其样本矩条件(依赖于我们使用的数据)做等价代换。因为我们从总体矩条件开始,然后运用类比原理得到一个依赖于观测数据的估计量。

我们想要估计随机变量 的均值,即 ,其中“母体矩条件(PMC)”为: , 为从这个母体中随机抽取的一组样本观察值,则对应的“样本矩条件(SMC)”为 。因此,我们可知母体矩条件的样本均值估计为: ,样本矩条件的样本均值估计为: 。

例子:自由度为k的 随机变量的均值为k,方差为2k,因此两个母体矩条件(PMC)如下:

(1a)

(1b)

这个母体中随机抽取的一组样本观察值 ,对应的样本矩条件(SMC)为:

(1a)

(1b)

矩估计法是用样本的k阶矩作为总体的k阶矩的估计量,建立含待估计参数的方程,从而可解出待估计参数。

一般地,不论总体服从什么分布,总体期望 与方差 存在,则根据据估计法,它们的矩估计量分别为:

OLS估计是矩估计的一种形式。OLS估计的公式为: ,其中 与 不相关,则有 。

因此, ,其中 是母体矩条件,对应的样本矩条件为: ,求解即可得到OLS估计下的 。

工具变量法(IV)是为了解决一个违反经典假设问题而设计的,假设条件是:解释变量与随机扰动项不相关。如果出现了违反该假设的问题,就需要找一个和解释变量高度相关的、同时和随机扰动项不相关的变量。要注意的问题是,工具变量的设定除了上述两个条件以外,工具变量的个数至少要大于或者等于解释变量的个数,常数项是默认的工具变量,和随机扰动项不相关的解释变量也可以作为工具变量。

工具变量是矩估计的一种形式。假设公式为: ,根据公式可得: ,取得工具变量为 ,其中 ,得到 ,则 , 为母体矩条件,对应的样本矩条件为: ,求解即可得到工具变量估计下的 。

GMM估计中,假设待估参数的个数为k,矩条件的个数为l:

1.恰好识别(just or exactly identified):当k=l时,即待估参数的个数等于矩条件的个数;

2.过度识别(overidentified):当k<l时,即待估参数的个数小于矩条件的个数。

GMM 是矩估计(MM)的推广。在恰好识别情况下,目标函数的最小值等于 0 ,GMM 估计量与 MM 估计量等价;然而在过度识别情况下,MM 不再适用,GMM 可以有效地组合矩条件,使 GMM 比 MM 更有效。在GMM估计中,母体矩条件为: ,样本矩条件为: ,通过求解样本矩条件得到GMM均值估计: 。

两阶段最小二乘法其本质上是属于工具变量,回归分两个阶段进行,因此而得名。具体机理是:

第一步,将结构方程先转换为简化式模型(约简型方程),简化式模型里的每一个方程都不存在随机解释变量问题,可以直接采用普通最小二乘法进行估计。

第二步,由第一步得出的 的估计量替换 。该方程中不存在随机解释变量问题,也可以直接用普通最小二乘法进行估计。

例子:一般IV回归模型为:

(a)

其中:

以单内生回归变量的2SLS为例,当只有一个内生回归变量X和一些其他的包含的外省变量时,感兴趣的方程为: (b),其中同前 可能与误差项相关,但 与误差项不相关。

2SLS的总体第一阶段回归将X与外生变量W和工具变量(Z)联系在了一起:

(c)

其中 为未知回归系数, 为误差项。

在2SLS的第一阶段中,可用OLS估计(c)式中的未知系数,并记由该回归得到的预测值为 。在2SLS的第二阶段中,用OLS估计 用第一阶段的预测值替换后的(b)式。也就是用OLS估计 关于 , 的回归。得到的 估计量就是2SLS估计量。

当存在多个内生回归变量 时,除了每个内生回归变量都需要自己的第一阶段回归以外,2SLS的算法是类似的。其中每个内生回归变量的第一阶段回归形式同(c)式,即因变量是某个X,回归变量是所有工具变量(Z)和所有包含的外生变量(W)。所有这些第一阶段回归一起得到了每个内生回归变量的预测值。

在2SLS的第二阶段中,用OLS估计内生回归变量( )分别用其预测值( )替换后的(a)式。得到的 估计量即为2SLS估计量。

上面提到了,只有恰好识别和过度识别才能用IV方法估计。假设待估参数的个数为k,矩条件的个数为l。当 时,称为“恰好识别”,当 时,称为 “过度识别”。

一个很重要的命题是:只有过度识别情况下才能检验工具变量的外生性,而恰好识别情况下无法检验。具体思路如下:工具变量的外生性意味着它们和 不相关。这表明工具变量和 近似不相关,其中 为基于所有工具变量的2SLS回归估计残差(由于抽样变异性因此是近似的而不是精确地,注意到这些残差是利用X值而不是用其第一阶段的预测值得到的。)于是,如果工具变量事实上是外生的,那么 关于工具变量和包含的外生变量回归中工具变量的系数都应该等于零,而这个假设是可以检验的。

过度识别约束检验(J统计量),又称为Sargan统计量。令 为来自(a)式2SLS估计的残差。利用OLS估计下面的回归系数:

(d)

其中 为回归误差项。令F表示检验假设 的同方差适用F统计量。则过度识别约束检验统计量为 。如果 是同方差的,则在所有工具变量都是外生的原假设下, 服从 分布,其中 为“过度识别度”,也就是工具变量的个数减去内生回归变量的个数。

在Hansen、Singleton(1982)的经典文章中,他们基于消费的资产资本定价模型分析了资产随时间的移动。在他们的非线性理性预期模型的一个稍微简单的版本中,代表性最大化的期望贴现寿命效用为: ,其中受到的预算约束为: , , 其中 为 时刻的阶段性消费, , , 是相应到期的价格、数量和资产收益, 是实际工资并且 是时刻t的代理信息集。Hansen和Singleton使用一个恒定的相对风险厌恶效用函数 ,因此优化问题的一阶条件是 ,这个看起来像一个母体矩条件但是目前的问题是我们有两个参数 , 只有一个矩条件。但是,对任意向量 ,通过一个迭代的条件期望参数Euler方程变成 。

因此,从理论上讲,该模型是通过时刻t已知的任何代理变量来识别的,比如 或者 ,并且能够利用GMM方法一致的估计。与此相反,该模型的极大似然估计需要精确地指定变量的条件分布和大量的数值积分,这些都是计算上的负担。

(1)在stata中,gmm的一般命令形式为:

gmm ([reqname1:]rexp_1) ([reqname2:]rexp_2)…[if] [in] [weight] [,options]

其中:

1. reqname_j 代表第j个剩余方程的表达式

2. rexp_j 是第j个残差方程的可替换表达式

(2)在stata中,gmm的矩估计命令形式为:

gmm moment_pro [if] [in] [weight],

{equations(namelist) | nequations(#)}

{parameters(namelist) | nparameters(#)} [options]

[program_options]

1.moment_prog是矩估计评估形式

(1)和(2)中的 options 选项为:

1. derivative([reqname|#]/name=dexp_jk) 指定reqname(或#)对参数名的导数;可指定多于一次。

2. Instruments

3. Weight matrix

4. SE/Robust

5. Reporting

6. Optimization

在对gmm命令的一般形式有了解之后,此处举个简单的案例来进行gmm的分析。以stata自带的数据auto.dta为例,进行以下的GMM实验:

(1)简单线性回归的GMM

stata *** 作为:

sysuse auto,clear

gmm (mpg - {b1}*gear_ratio - {b2}*turn - {b0}),instruments(gear_ratio turn)

结果如下:

(2)利用线性组合的简单线性回归GMM

stata *** 作为:

gmm (mpg - {xb:gear_ratio turn} - {b0}), instruments(gear_ratio turn)

结果如下:

(3)两阶段最小二乘(与 ivregress 2sls 相同)

最小二乘法的stata *** 作为:

ivregress 2sls mpg gear_ratio (turn = weight length headroom)

结果为:

相应GMM的stata *** 作为:

gmm (mpg - {b1}*turn - {b2}*gear_ratio - {b0}), instruments(gear_ratio weight length headroom) onestep

结果如下:

(4)两步GMM估计(与ivregress GMM相同)

两步GMM估计的stata *** 作为:

ivregress gmm mpg gear_ratio (turn = weight length headroom)

或者 gmm (mpg - {b1}*turn - {b2}*gear_ratio - {b0}), instruments(gear_ratio weight length headroom) wmatrix(robust)

当然GMM更有名的应用是在动态面板的估计上,我们可以使用xtabond估计动态面板。以stata自带的数据abdate.dta为例,进行实验:

webuse abdata,clear

xtabond n L(0/1).w L(0/1).k, lags(1) noconstant vce(robust)

结果如下:

用GMM的形式可以表示为:

gmm (D.n - {rho}*LD.n - {xb:D.w LD.w D.k LD.k}),

xtinstruments(n, lags(2/.)) instruments(D.w LD.w D.k LD.k, noconstant)

deriv(/rho = -1*LD.n) deriv(/xb = -1) winitial(xt D) onestep

结果如下:

在计量经济学方法研究以及应用中,一般需要恰好识别或者过度识别,虽然过度识别的情况比较多一些,另外这是进行工具变量法的必要条件;若是出现过度识别,则需要进行过度识别检验,也称为Sargen-Baseman检验。

该假设的条件为所有有效的工具变量的个数与内生解释变量一样多,或者说是这个所有的工具变量都是外生的。

GMM中过度识别的命令为 estat overid 。

若是Sargen-Baseman检验的统计量对应的p值大于0.05,则认为所有的工具变量都是外生的,也就是有效的,反之则是无效的。(原假设是所有工具变量是外省的,若是p值小于0.05,则拒绝原假设)

此处用stata自带数据auto.dta来进行试验:

sysuse auto,clear

ivregress gmm mpg gear_ratio (turn = weight length headroom),wmatrix(robust) small

estat overid

结果如下:

回归时的结果为

过度识别检验(Sargen-Baseman检验)的结果

根据结果可知,Sargen-Baseman检验统计量对应的p值大于0.05,所有的工具变量都是外生有效的。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/10866128.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-11
下一篇 2023-05-11

发表评论

登录后才能评论

评论列表(0条)

保存