数据说明:
还是选择万兴科技的股票数据来做回归分析,和《股票时序分析和时序模型(实践)》这篇文章使用数据一致。需要说明由于spssau免费账号最多输入50项数据,所以使用的都是近50期数据。虽然《股票时序分析和时序模型(实践)》最后说明了spssau的ARIMA推荐模型没有考虑滞后阶数和AIC/BIC与python结果不一致这两个问题。
spssau上的相关分析图
python中制作的相关性热力图,检验发现spssau和python结果一致。
数据的多重共线性问题很严重,比如我通过开盘价数据open做的计算shift_diff_1,mean_of_2,mean_5.所以决定直接做逐步回归先解决多重共线性问题,找出应该用于回归分析的变量。
逐步回归:
要分析的项
turnoverrate即的B值0.998,说明和成交量volume极度相关,这符合我们对市场的认知。但我们需要更有价值的认知。所以去掉turnoverrate再进行分析。
当天最高价,最低价,也就是股票波动幅度,代表了交易的活跃程度,而mean_of_5是5期的移动平均值,它包含了最近五期的价格信息,所以这三项指标能对成交量volume的值解释89.7%。也很高了。
但是这三项都是股票价格,并且出现了VIF值很高的情况,所以去除high和low我们再进行分析。
open是开盘价,它和mean_of_5都是股价数据,而且它VIF值很高,多重共线性严重,需要去除掉。和open一样的是ps市销率,市销率=每股股价/每股销售收入。销售收入稳定,波动性小,所以ps和股价高度相关,其VIF值比open还高,多重共线性严重,也需要去除。就接下是去除两者后继续分析。
pb是市净率的意思,股票市净率=股票每股市价、每股净资产,因为净资产在一定时间是固定的,所以pb与也与股价高度相关。它衡量股价被高估或低估的指标,pb越高股价越是被高估,pb的标准化系数Beta为0.466>0,这说明与成交量volume正相关。
D-W值表明自相关问题不严重,没有偏离数值2太多。VIF都小于5,从可决系数看出能解释63.3%的volume变化,p值显著。
如果去除pb和percent模型质量堪忧,所以逐步回归完成。模型公式为:volume=-13891215.630 + 3182326.816*pb + 351261.848*percent。
现在需要检查。再次运行pb和percent组成的模型,这次保留残差。
以进行下一步残差检验。如果残差不满足正态性我们可以对Y取对数后再次构建模型;
如果有异方差问题robust回归能解决异方差,在逐步回归的成果之上运用roubust回归,则多重共线性和异方差性都得到解决;
自相关严重可以使用ARIMA时序模型,多个时序相关性用“协整”。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)