在实际生活中,大多数经济金融时间序列通常是非平稳的,如果用这些非平稳时间序列来建立回归模型,那么就会产生虚假回归,即所谓的“伪回归”.“伪回归”指的是变量之间本来不存在相关关系,但是将他们进行回归却得到相关关系的现象.如果采用传统回归方法对彼此不相关的非平稳变量进行回归,那么 t t t检验会倾向显著, R 2 R^2 R2值也会比较大,由此得出变量相关的伪回归结果.那么该如何消除“伪回归”呢? 为了避免变量信息的损失,通常的思路是进行协整分析.协整分析是通过构造各个非平稳变量的线性组合,以此来消除非平稳性.这样既保留了变量的信息,又建立了变量间的关系.多个非平稳变量之间的线性组合是平稳的即称为协整.
协整的定义如下:
定义 设 k k k个序列 x 1 t , x 2 t , … , x k t x_{1t},x_{2t},\dots,x_{kt} x1t,x2t,…,xkt, X t = ( x 1 t , x 2 t , … , x k t ) T X_t=(x_{1t},x_{2t},\dots,x_{kt})^T Xt=(x1t,x2t,…,xkt)T,如果每个序列都是 d d d阶单整序列, 即 x i t ∼ I ( d ) x_{it}\sim I(d) xit∼I(d),并且存在非零向量 β = ( β 1 , β 2 , … , β k ) T \beta=(\beta_1,\beta_2,\dots,\beta_k)^T β=(β1,β2,…,βk)T,使得 β T X t \beta^TX_t βTXt为 ( d − b ) (d-b) (d−b)阶单整序列,则称 X t X_t Xt的各分量是𝑑、𝑏阶协整的,记为 X t ∼ C I ( d , b ) X_t\sim CI(d,b) Xt∼CI(d,b). 其中,𝑘 ≥ 2,𝛽称为协整向量
协整关系的检验:
Johansen 检验是基于回归系数的协整检验,它不需要事先确定哪些变量为解释变量或者被解释变量,所以它可以用来解决存在多个协整关系的情况. Johansen 检验是以 VAR 模型为基础的检验回归系数的方法,其基本思想是求特征根和特征向量的问题. 这里不展开详细介绍,有兴趣的读者可以自行查阅相关资料.
协整与相关值得注意的是,协整并不代表相关。两个变量之间的相关性很强,但是协整性却可能很弱。所以当我们在筛选股票的时候,不是计算股票之间的相关性,而是计算协整。
配对交易 策略思想我们通常认为股票价格是有趋势的,所以也就自然而然的认为股票价格是不平稳的,这在实际中很普遍,所以如果能找到存在协整关系的两只股票,我们就可以构建配对交易策略获利。
配对交易的思想是:两只存在协整关系的股票,两者的股价走势会存在偏离的情况,但是最终都会趋于一致。配对交易就是利用这种价格偏移进行获利。设 X t X_t Xt, Y t Y_t Yt表示两只股票的价格序列,当两只股票的价差( X t − Y t X_t-Y_t Xt−Yt)过高时,买入前者,卖出后者;当价差过低时,买入后者,卖出前者;当价差回归均值附近时,反向 *** 作平仓处理。
策略的风险及存在的问题:
价差不回归的风险:当市场结构发生重大变化,用过去历史回归出来的价差会存在不回归的重大风险中国股票市场目前做空受到限制,所以策略中的部分收益是无法获得的回归系数需要不断地平衡下面的策略实现中,没有考虑到交易成本和其他成本 策略实现在这里直接挑选了两只股票来进行配对交易,在实际环节中,应该先找到两只存在协整关系的股票,然后再构建配对交易策略。
导入所需的包:
%matplotlib inline
import matplotlib.pyplot as plt
import matplotlib as mpl
plt.style.use('seaborn')
mpl.rcParams['font.family'] = 'serif'
import warnings; warnings.simplefilter('ignore')
import pandas as pd
import numpy as np
import tushare as ts
获取标的代码为:601666.SH和601001.SH的历史日线数据:
pair = ['601666.SH','601001.SH']
df1 = ts.pro_bar(ts_code=pair[0],adj='qfq',start_date='2020-01-01',end_date='2021-07-07')
df2 = ts.pro_bar(ts_code=pair[1],adj='qfq',start_date='2020-01-01',end_date='2021-07-07')
#将两表合并为一张表,这里要特别注意的是需要一一对应,如果股票存在暂停上市等,要特别注意是否一一对应
df = pd.concat([df1[['trade_date','close']],df2['close']],axis=1)
df.columns = ['date',pair[0],pair[1]]
df.set_index('date',inplace=True) #索引设置为日期
df = df.iloc[::-1,] #按照时间顺序从小到大排序
df.plot()
两只股票价格走势如图所示:
构建回归模型:
回归模型的表达式为: y = a + b x y=a+bx y=a+bx,其中 b b b表示下面的slope表示斜率, a a a表示截距项intercept
slope,intercept = np.polyfit(df[pair[0]],df[pair[1]],1).round(2)
构建价差以及标准化:
绝对的价差在后续构建头寸的时候不是很方便,将价差进行z-score标准化,然后当均值回归0附近即平仓,如果均值大于或者小于给定的阈值,就多头或者空头。
slope,intercept = np.polyfit(df[pair[0]],df[pair[1]],1).round(2)
df['spread'] = df[pair[1]] - (slope * df[pair[0]] + intercept)
df['spread_zscore'] = (df['spread'] - df['spread'].mean()) / df['spread'].std()
df['spread_zscore'].plot(figsize=(10,6),title='spread_zscore')
plt.axhline(0.8,color='r')
plt.axhline(0.0,color='y')
plt.axhline(-0.05,color='y')
plt.axhline(-0.8,color='r')
标准化后的价差序列如下图所示:(设定了阈值为0.8和0.05)
构建配对交易策略头寸:
只要构建了一只股票的头寸,那么另一只反向即可
df['position_1'] = np.where(df['spread_zscore'] > 0.8, 1, np.nan)
df['position_1'] = np.where(df['spread_zscore'] < -0.8, -1, df['position_1'])
df['position_1'] = np.where(abs(df['spread_zscore']) < 0.05, 0, df['position_1'])
df['position_1'] = df['position_1'].fillna(method='ffill')
df['position_2'] = -df['position_1']
构建收益:
df['return1'] = np.log(df[pair[0]] / df[pair[0]].shift(1))
df['return2'] = np.log(df[pair[1]] / df[pair[1]].shift(1))
df['strategy'] = 0.5*(df['position_1'].shift(1)*df['return1']) + 0.5*(df['position_2'].shift(1)*df['return2'])
df[['return1','return2','strategy']].cumsum().apply(np.exp).plot(figsize=(10,6))
策略收益及基准收益如下:
从收益图可以看出,同单独持有一只股票相比,虽然策略收益率没有那么高,但是策略的最大回撤较小,这里是随意选取的两只股票,只用于策略的演示。
免责声明:
在任何情况下,本文中的信息或所表述的意见并不构成对任何人的投资建议,这里只为了策略的演示。
在任何情况下,本人不对任何人因使用本文中的任何内容所引致的任何损失负任何责任,投资者自主作出 投资决策并自行承担投资风险,任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)