(1)如果除a0=1外所有其它的AR系数都等于零,则式(1-124)成为
地球物理信息处理基础
这种模型称为q阶滑动平均模型或简称为MA(q)模型(Moving Average Model),其系统函数(传输函数)为
地球物理信息处理基础
模型输出功率谱为
地球物理信息处理基础
或
地球物理信息处理基础
这是一个全零点模型,因为它只有零点,没有极点(除了原点以外)。如果模型的全部零点都在单位圆内,则是一个最小相位系统,且模型是可逆的。
(2)如果除b0=1外所有其它的MA系数都等于零,则式(1-124)成为
地球物理信息处理基础
这种模型称为p阶自回归模型或简称为AR(p)模型(Autoregressive Model),其传输函数为
地球物理信息处理基础
模型输出功率谱为
地球物理信息处理基础
或
地球物理信息处理基础
显然,该模型只有极点,没有零点(除了原点以外),因此这是一个全极点模型,而且只有当极点都在单位圆内时,模型才稳定。
(3)设a0=1和b0=1,其余所有的ak和bk不全为零。在这种情况下,模型的差分方程、系统函数和输出功率谱分别用式(1-124)、式(1-123)和式(1-125)或式(1-126)表示。分子部分称为MA部分,而分母部分称为AR部分,这两部分分别满足稳定性和可逆性的条件。这是一个“极点—零点”模型,称为自回归滑动平均模型ARMA(p,q)模型(Autore-gressive Moving Average Model)。
在上面已谈到,实际中所遇到的功率谱可分为三种:一种是“平谱”,即白噪声谱,第二种是“线谱”,即由一个或多个正弦信号所组成的信号的功率谱,第三种介于二者之间,即既有峰点又有谷点的谱,这种谱称为ARMA谱。可以看出,AR模型能突出反映谱的峰值,而MA模型能突出反映谱的谷值。
沃尔德(Wold)分解定理阐明了上述三类模型之间的联系,即:任何广义平稳随机过程都可分解成一个可预测(确定)的部分和一个不可预测(完全随机)的部分。确定性随机过程是一个可以根据其过去的无限个取样值完全加以预测的随机过程。例如,一个由纯正弦信号(具有随机相位以保证广义平稳)和白噪声组成的随机过程,可以分解成一个纯随机成分(白噪声)和一个确定性成分(正弦信号)。或者可以把这种分解看成为把功率谱分解成一个表示白噪声的连续成分和一个表示正弦信号的离散成分(具有冲激信号的形式)。
Wold分解定理的一个推论是:如果功率谱完全是连续的,那么任何ARMA过程(Au-toregressive Moving Average Process)或AR过程(Autoregressive Process)可以用一个无限阶的MA过程(Moving Average Process)表示。Колмогоров(Kolmogorov)提出的一个具有类似结论的定理:任何ARMA或MA过程可以用一个无限阶的AR过程表示。这些定理很重要,因为如果选择了一个不合适的模型,但只要模型的阶数足够高,它仍然能够比较好地逼近被建模的随机过程。
估计ARMA或MA模型参数一般需要解一组非线性方程,而估计AR模型参数通常只需解一组线性方程,因此,AR模型得到了深入的研究和广泛应用。如果被估计过程是p阶自回归过程,那么用AR(p)模型即能很精确地模拟它;如果被估计过程是ARMA或MA过程,或者是高于p阶的AR过程,那么用AR(p)模型作为它们的模型时,虽然不可能很精确,但却可以尽可能地逼近它,关键是要选择足够高的阶数。证明如下:
假设MA模型为
地球物理信息处理基础
对上式进行Z变换得到
X(z)=B(z)W(z)
式中B(z)是MA信号模型的系统函数,或者说是bi(i=1,2,3,…)序列的Z变换。
设MA信号模型满足可逆性条件,即B-1(z)的存在,令
B-1(z)=G(z)=1+g1z-1+g2z-2+g3z-3+…
这样
X(z)G(z)=(1+g1z-1+g2z-2+g3z-3+…)X(z)=W(z)
则
地球物理信息处理基础
对上式进行Z反变换,得到
x(n)+g1x(n-1)+g2x(n-2)+g3x(n-3)+…=w(n)
上式就是x(n)的AR信号模型,因此证明了一个时间序列可以用有限阶MA信号模型表示时,也可以用无限阶的AR模型表示,对于ARMA模型也同样可以证明。
[例1-2]已知x(n)的功率谱为
地球物理信息处理基础
求出该模型的系统函数H(z)。
解:利用欧拉公式可以将Pxx(ejω)变为
地球物理信息处理基础
取z=ejω,则上式变为
地球物理信息处理基础
令 ,那么, ,显然有理多项式B(z)的分子、分母都是最小相位的。所以有
地球物理信息处理基础
与式(1-120)相比较,得 。又由式(1-125)得到所求的系统函数
地球物理信息处理基础
目录
时间序列是一列观测值 的集合, 其中每个观测值是在时段 观测所得( 是自然数 ) 给定时间序列 , 如果对任意的 , 它满足下列条件:
i
ii
iii
我们把它叫做(弱)平稳(weakly stationary)序列(下文我们简称平稳序列)
通俗地讲, 平稳序列的期望, 方差, 协方差不随时间变化 例如, 服从同一个分布时, 它是平稳的
例1 下图中的时间序列由 生成 从直观上看, 这个序列是"平稳的"
例2 下图的中的时间序列由 生成, 其中 , 它起初有明显地增长, 然后趋于平稳 利用ADF检验(详情见下文), 我们发现该序列是平稳的(p-value < 001)
Remark 弱平稳性的"弱"主要体现在时间序列在全局上是平稳的, 即,时间序列局部是波动的,但整体上看是平稳的, 或者随着时间的变化其样本的均值收敛
我们用统计学中假设检验的方法来判断样本的平稳性 常用的是Augmented Dickey-Fuller(ADF)检验 [1]
在显著水平 的条件下, 我们可以通过计算p-value来接受或者拒绝 :
Python3中 statsmodelstasstattools 中的 adfuller 函数 [3] 实现了ADF检验 使用方法如下所示
前面之所以介绍平稳序列的概念及检验方法, 是因为它是很多基础的时间序列模型的前提假设 在本节我们介绍一些常见的时间序列模型(更多内容可以参考 [4] , [5] )
AR代表自回归(Autoregression) 假设时间序列 是平稳的, 它可以被表示成如下形式:
MA代表移动平均(Moving Average) 假设时间序列 是平稳的, 它可以被表示成如下形式:
ARMA模型是AR和MA的组合 假设同上 它可以被表示为如下形式:
ARIMA模型是ARMA模型的推广, 全称是Autoregressive Integrated Moving Average 当时间序列 不满足平稳性时, 我们通常使用 差分 的技巧把序列变得平稳, 然后再应用ARMA模型
参数 代表差分的阶数 下面是差分的计算公式( 为差分算子):
例3 下图是原始的时间序列 通过观察, 它的均值有明显的上升趋势且不收敛, 因此不是平稳序列(ADF检验的p-value为094)
对该序列进行一阶差分后, 我们得到如下平稳的时间序列(p-value为000)
该记号代表季节性(或周期性)ARIMA模型, 详细的表达式可以参考 [4] ( 41 Seasonal ARIMA models ), 其中
我们可以把它看成两阶段模型: 第一阶段在全局使用ARIMA(p,d,q); 第二阶段通过指定周期长度 , 再利用ARIMA(P,Q,D)模型考虑周期之间的关系
例4 考虑如下周期性的平稳时间序列( )
对序列进行周期性差分: 得到新的时间序列 如下图所示(红色部分)
通过使用周期性差分, 我们可以把原有时间序列的周期性移除 同理, 通过采用周期性的自回归和移动平均系数, 我们可以把周期之间的依赖关系考虑进模型
例5 考虑周期s=18的数据(蓝色曲线) 用 和 分别进行预测的结果如下
不考虑周期性的ARIMA模型的预测结果(灰色曲线)逐渐收敛到时间序列的均值 由于序列是平稳的, 这样的预测结果符合我们的期望 考虑到该时间序列有比较强的周期性, 且通过观察发现周期 在本例中, 我们仅使用周期差分, 最终得到了如图所示(红色曲线)的周期性预测结果
ARCH的全称是Autoregressive Conditionally Heteroscedasticity, 它可以用来考虑样本的方差随着时间变化(或震荡)的时间序列 设时间序列 是平稳的, 模型可以被表示成如下形式:
其中
GARCH即Generalized ARCH, 是ARCH模型的推广 [6] 设时间序列 是平稳的, 模型可以被表示成如下形式:
其中
Remark ARCH/GARCH随机过程产生的数据是什么样的 前面提到它们允许 样本的方差 随时间变化, 但是由于 必须满足平稳性(前提假设), 因此样本的方差从局部看是变化(震荡)的, 但从整体看应该是"平稳的"序列 例如下图是一个 过程生成的时间序列( )
VAR即Vector Autoregression, 它是多变量的自回归模型 类似地, 我们有 , 它是 的向量版本 需要注意的是, VARMA模型处理的时间序列可以有趋势 我们不做详细的展开, 感兴趣的读者可以参考 [4] 章节112: Vector Autoregressive models VAR(p) models
给定时间序列的观测样本, 选定预测模型之后如何确定模型的参数 本节我们介绍两种常用的方法: 1 画出ACF/PACF图, 然后观察出 的值; 2 通过计算相关的统计指标, 自动化地选择参数
ACF的全称是Autocorrelation Function 对变量 , ACF的值代表 与 之间的相关性
PACF的全称是Partial Autocorrelation Function 对变量 , PACF的值代表已知 的条件 下, 与 之间的相关性
例6 设 考虑下面三个模型生成的时间序列, 并计算相应的ACF/PACF
基本思想是通过计算一些指标, 并选择参数使得相关的指标值尽可能小 下面我们介绍一些常用的指标
为方便描述, 我们先定义一些记号
(AIC的改良版, 解决小样本过拟合的问题)
(也称为Schwartz Criterion, SBC, SBIC)
Remark 建议在实际中综合考虑这些指标
Python3 code on Github
关于时间序列分解常用的模型如下:如果除a0=1外所有其它的AR系数都等于零,则式(1-124)成为地球物理信息处理基础这种模型称为q阶滑动平均模型或简称为MA(q)模型(Moving Average Model),其系统函数(传输函数)为。
地球物理信息处理基础模型输出功率谱为地球物理信息处理基础或地球物理信息处理基础这是一个全零点模型,因为它只有零点,没有极点(除了原点以外)。如果模型的全部零点在单位圆内,则是一个最小相位系统,且模型是可逆的。如果除b0=1外所有其它的MA系数都等于零,则式(1-124)成为
地球物理信息处理基础这种模型称为p阶自回归模型或简称为AR(p)模型(Autoregressive Model),其传输函数为地球物理信息处理基础模型输出功率谱为地球物理信息处理基础或地球物理信息处理基础显然,该模型只有极点,没有零点(除了原点以外),因此这是一个全极点模型,而且只有当极点都在单位圆内时,模型才稳定。
设a0=1和b0=1,其余所有的ak和bk不全为零。在这种情况下,模型的差分方程、系统函数和输出功率谱分别用式(1-124)、式(1-123)和式(1-125)或式(1-126)表示。分子部分称为MA部分,而分母部分称为AR部分,这两部分分别满足稳定性和可逆性的条件。这是一个“极点—零点”模型,称为自回归滑动平均模型ARMA(p,q)模型(Autore-gressive Moving Average Model)。
在上面已谈到,实际中所遇到的功率谱可分为三种:一种是“平谱”,即白噪声谱,第二种是“线谱”,即由一个或多个正弦信号所组成的信号的功率谱,第三种介于二者之间,即既有峰点又有谷点的谱,这种谱称为ARMA谱。可以看出,AR模型能突出反映谱的峰值,而MA模型能突出反映谱的谷值。
沃尔德(Wold)分解定理阐明了上述三类模型之间的联系,即:任何广义平稳随机过程都可分解成一个可预测(确定)的部分和一个不可预测(完全随机)的部分。确定性随机过程是一个可以根据其过去的无限个取样值完全加以预测的随机过程。
例如,一个由纯正弦信号(具有随机相位以保证广义平稳)和白噪声组成的随机过程,可以分解成一个纯随机成分(白噪声)和一个确定性成分(正弦信号)。或者可以把这种分解看成为把功率谱分解成一个表示白噪声的连续成分和一个表示正弦信号的离散成分(具有冲激信号的形式)。
Wold分解定理的一个推论是:如果功率谱完全是连续的,那么任何ARMA过程(Au-toregressive Moving Average Process)或AR过程(Autoregressive Process)可以用一个无限阶的MA过程(Moving Average Process)表示。
Колмогоров(Kolmogorov)提出的一个具有类似结论的定理:任何ARMA或MA过程可以用一个无限阶的AR过程表示。这些定理很重要,因为如果选择了一个不合适的模型,但只要模型的阶数足够高,它仍然能够比较好地逼近被建模的随机过程。
估计ARMA或MA模型参数一般需要解一组非线性方程,而估计AR模型参数通常只需解一组线性方程,因此,AR模型得到了深入的研究和广泛应用。
如果被估计过程是p阶自回归过程,那么用AR(p)模型即能很精确地模拟它;如果被估计过程是ARMA或MA过程,或者是高于p阶的AR过程,那么用AR(p)模型作为它们的模型时,虽然不可能很精确,但却可以尽可能地逼近它,关键是要选择足够高的阶数。证明如下:
假设MA模型为地球物理信息处理基础对上式进行Z变换得到X(z)=B(z)W(z)
式中B(z)是MA信号模型的系统函数,或者说是bi(i=1,2,3,…)序列的Z变换。设MA信号模型满足可逆性条件,即B-1(z)的存在,令B-1(z)=G(z)=1+g1z-1+g2z-2+g3z-3+…这样X(z)G(z)=(1+g1z-1+g2z-2+g3z-3+…)X(z)=W(z)
则地球物理信息处理基础对上式进行Z反变换,得到x(n)+g1x(n-1)+g2x(n-2)+g3x(n-3)+…=w(n)上式就是x(n)的AR信号模型,因此证明了一个时间序列可以用有限阶MA信号模型表示时,也可以用无限阶的AR模型表示,对于ARMA模型也同样可以证明。
ARMA模型属于时间序列分析中的一种,20世纪70年代,由美国统计学家金肯(JenKins)和波克斯(Box)提出。
对于一个平稳、零均值的时间序列,一定能对它拟合一个如下形式的随机差分方程:
(6-3-31)
式中,是时间序列在t时刻的元素;称为自回归(Autoregressive)参数;称为滑动平均(Moving Average)参数;序列称为残差序列,当这一方程正确地揭示了时序的结构与规律时,则应为白噪声,即。显然,上式左边为一个阶差分多项式,称为阶自回归部分;右边为一个阶差分多项式,称为阶滑动平均部分。上式称为阶自回归阶滑动平均模型,记为ARMA(n,m)模型,也称为ARMA时序或ARMA过程。
在式(6-3-31)中,当时,模型中没有滑动平均部分,称为阶自回归模型,记为AR(n)。其形式为:
(6-3-32)
在式(6-3-31)中,当时,模型中没有自回归部分,称为阶滑动平均模型,记为MA(m)。其形式为:
(6-3-33)
本文采用基于残差方差最小原则的建模,它是基于如下认识:任一平稳序列总可以用一个模型来表示,而AR(n),MA(m)以及都是模型的特例。其建模思想可概括为:逐渐增加模型的阶数,拟合较高阶模型,直到再增加模型的阶数而剩余残差方差不再显著减小为止。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)