时间序列分析中,异常值的检验和处理

时间序列分析中,异常值的检验和处理,第1张

异常值是指一个时间序列观测值中,原来序列一般水平的极端大值和极端小值,有时称为离群点或野值。

用SAS软件运行上述程序,可以从图形中直观看到1.579是异常值。

修正方法一:

如果X_(t+1)是一个异常值,我们可以用^X_(t)来修正X_(t+1),即

^X_(t)=2X_(t)-X_(t-1)

这里我们用2*0.0625-0.1880=-0.063代替1.5979

检验批中异常数据的判断处理

1、依据标准

《计数抽样检验程序》(GB2828)、《正态样本异常值的判断和处理》(GB4883)。

2、异常值定义

异常值是指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值。

3、异常值的种类

(1)可能是总体固有的随机变异性的极端现,属同一总体;

(2)可能是试验条件和方法的偶然偏离,不属同一总体。

4、判断异常值的统计学原则

(1)上侧情形:异常值为高端值;

(2)下侧情形:异常值为低端值;

(3)双侧情形:异常值在两端可能出现极端值。

5、判断异常值的规则:

(1)标准差已知——奈尔(Nair)检验法;

(2)标准差未知——格拉布斯(Grubbs)检验法和狄克逊(Dixon)检验法。

6、格拉布斯(Grubbs)检验法

(1)计算统计量

μ=(X1+X2+…+Xn)/n

s=(∑(Xi-μ)/(n-1))&frac12(i=1,2…n)

Gn=(X(n)-μ)/s

式中μ——样本平均值;

s——样本标准差;

Gn——格拉布斯检验统计量。

(2)确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。

(3)当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。

(4)给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。

三、格拉布斯检验法在回d法检测砼强度中的应用

将测区混凝土强度换算值按从小到大的顺序排列f1、f2、…fn,计算格拉布斯检验统计量:

Gn=(fn-m)/s

Gn’=(m-f1)/s

式中m——测区混凝土强度换算值的平均值;

s——测区混凝土强度标准差。

取检出水平α为5%,剔除水平α’为1%,按双侧情形检验,从附表中查得检出水平α对应格拉布斯检验临界值G0.975,剔除水平α’对应格拉布斯检验临界值G0.995。

若Gn>Gn’,且Gn>G0.975,则判断fn为异常值,否则,判断无异常值;

若Gn>Gn’,且Gn>G0.995,则判断fn为高度异常值,可考虑剔除;

若Gn’>Gn,且Gn’>G0.975,则判断f1为异常值,否则,判断无异常值;

若Gn’>Gn,且Gn’>G0.995,则判断f1为高度异常值,可考虑剔除;

分析异常值出现原因,判断异常值是否舍弃。不得随意舍去异常值,应检查异常值出现是否系材料或施工质量变化等原因所致。

若检出了一个异常值,对除去已检出异常值后余下得数值继续用格拉布斯检验法检验,直到不能检出异常值为止。

解释变量内生性检验

首先检验解释变量内生性(解释变量内生性的Hausman 检验:使用工具变量法的前提是存在内生解释变量。Hausman 检验的原假设为:所有解释变量均为外生变量,如果拒绝,则认为存在内生解释变量,要用IV;反之,如果接受,则认为不存在内生解释变量,应该使用OLS。

reg ldi lofdi

estimates store ols

xtivreg ldi (lofdi=l.lofdi ldep lexr)

estimates store iv

hausman iv ols

(在面板数据中使用工具变量,Stata提供了如下命令来执行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (选择项可以为fe,re等,表示固定效应、随机效应等。详见help xtivreg)

如果存在内生解释变量,则应该选用工具变量,工具变量个数不少于方程中内生解释变量的个数。“恰好识别”时用2SLS。2SLS的实质是把内生解释变量分成两部分,即由工具变量所造成的外生的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS前定变量的要求而得到一致估计量。tptqtp

二、异方差与自相关检验

在球型扰动项的假定下,2SLS是最有效的。但如果扰动项存在异方差或自相关,

面板异方差检验:

xtgls enc invs exp imp esc mrl,igls panel(het)

estimates store hetero

xtgls enc invs exp imp esc mrl,igls

estimates store homo

local df = e(N_g) - 1

lrtest hetero homo, df(`df')

面板自相关:xtserial enc invs exp imp esc mrl

则存在一种更有效的方法,即GMM。从某种意义上,GMM之于2SLS正如GLS之于OLS。好识别的情况下,GMM还原为普通的工具变量法;过度识别时传统的矩估计法行不通,只有这时才有必要使用GMM,过度识别检验(Overidentification Test或J Test):estat overid

三、工具变量效果验证

工具变量:工具变量要求与内生解释变量相关,但又不能与被解释变量的扰动项相关。由于这两个要求常常是矛盾的,故在实践上寻找合适的工具变量常常很困难,需要相当的想象力与创作性。常用滞后变量。

需要做的检验:

检验工具变量的有效性:

(1) 检验工具变量与解释变量的相关性

如果工具变量z与内生解释变量完全不相关,则无法使用工具变量法;如果与仅仅微弱地相关,。这种工具变量被称为“弱工具变量”(weak instruments)后果就象样本容量过小。检验弱工具变量的一个经验规则是,如果在第一阶段回归中,F统计量大于10,则可不必担心弱工具变量问题。Stata命令:estat first(显示第一个阶段回归中的统计量)

(2) 检验工具变量的外生性(接受原假设好)

在恰好识别的情况下,无法检验工具变量是否与扰动项相关。在过度识别(工具变量个数>内生变量个数)的情况下,则可进行过度识别检验(Overidentification Test),检验原假设所有工具变量都是外生的。如果拒绝该原假设,则认为至少某个变量不是外生的,即与扰动项相关。0H

Sargan统计量,Stata命令:estat overid

四、GMM过程

在Stata输入以下命令,就可以进行对面板数据的GMM估计。

. ssc install ivreg2 (安装程序ivreg2 )

. ssc install ranktest (安装另外一个在运行ivreg2 时需要用到的辅助程序ranktest)

. use "traffic.dta"(打开面板数据)

. xtset panelvar timevar (设置面板变量及时间变量)

. ivreg2 y x1 (x2=z1 z2),gmm2s (进行面板GMM估计,其中2s指的是2-step GMM)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11192058.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-14
下一篇 2023-05-14

发表评论

登录后才能评论

评论列表(0条)

保存