前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于『成交数据』的股票联动研究

基于『成交数据』的股票联动研究

作者头像
量化投资与机器学习微信公众号
发布2023-04-20 10:00:33
4590
发布2023-04-20 10:00:33
举报

受市场各参与方及资金流动等相互作用,不同股票之间往往会表现出价格联动或共振的现象。随着市场高频交易参与度的增加,这种共振的现象愈发明显。本文中,作者使用高频的成交数据来研究股票间共同成交(文中称为co-trading,即一只股票发生成交的极短时间内,另一只股票也发生成交)的现象,构建了co-trading network来对股票市场复杂的联动进行建模。

通过对co-trading network的分析与建模,作者主要有以下发现:

  • 对股票进行基于co-trading network的聚类,聚类的结果与传统行业分类有较高重合度。但同时也包含了传统行业分类所不具有的信息,即同一聚类中有很多不属于同一行业的股票。
  • 在2017-2019年期间,日度co-trading network中,不同行业的股票更加频繁的被聚在一起,说明不同行业股票之间的联动在逐步增加。
  • 通过对co-trading network时序数据的分析,可以将市场清晰的分为三个阶段(regime)。
  • Co-trading矩阵与收益率协方差矩阵存在显著的关联性,说明共同成交能够显著解释股价的联动。
  • 基于co-trading network改进的协方差矩阵,应用在组合优化中能够显著提高组合的夏普比率。

如何使用高频数据来度量两个股票共同成交?

首先解释下什么是共同成交(co-trading),如上图所示,不同的点表示不同时间产生的成交。以成交 为例,把当前成交单前后 时间内(如500毫秒)发生的成交作为共同成交。那么图中 和 为 的共同成交。而 因为离 发生的时间超过了 ,所以不是。

我们可以统计两个股票在一段时间内发生共同成交的笔数,从而衡量它们共同成交的程度(co-trading score),文中给出以下公式:

c_{t, i, j}^{\delta, d^i, d^j}:=\frac{L_{t, i \rightarrow j}^{d^i \rightarrow d^j}+L_{t, j \rightarrow i}^{d^j \rightarrow d^i}}{\sqrt{\left|S_t^{i, d^i}\right|} \sqrt{\left|S_t^{j, d j^j}\right|}}

看着有些复杂,实则很好理解。假设有两个股票i和j,我们使用它们最近一个交易日的所有成交单数据,那么:

  • 分子的第一项表示股票i的所有成交单中,是股票j所有成交单的共同成交单的笔数。
  • 分子的第二项表示股票j的所有成交单中,是股票i所有成交单的共同成交单的笔数。
  • 分母表示股票i与股票j当日成交单笔数的开方乘积。

同样以上图为例,假设蓝色点表示股票i,红色点表示股票j,那么它们的co-trading score计算如下:

1、站在股票i的角度, 属于 的共同成交, 不是股票i任何成交单的共同成交;分子第一项为1。

2、站在股票j的角度, 属于 的共同成交, 不是股票j任何成交单的共同成交;分子第二项为1。

3、分母为

如何构建共同成交网络(co-trading network)?

对股票池中,任意两个股票按找上述的方法计算co-trading score,就可以构建co-trading network。我们用co-trading score构成的矩阵表示这个网络,该矩阵有以下特点:

  • 所有元素的值都大于0,
  • 且是一个对称的矩阵。
  • 计算出日度的矩阵,更长时间,如5日的矩阵可以用过去5个日度矩阵的均值表示。

本文使用2017年至2019年,标普500成分股的成交数据进行实证分析,其中计算co-trading的时间间隔delta选用500毫秒。如下图,为使用全部样本数据构建的co-trading network。

以下是该网络中,使用eigenvector centrality作为影响力度量指标,排名前十的公司:

如果把所有股票的影响力(特征向量中心度,eigenvector centrality)根据GICS一级行业分类进行加总,我们可以看出信息技术、金融和通信服务行业的影响力最大:

如果把股票之间的co-trading score按照行业计算均值,可以构建如下行业间的关联图,其中变的宽度表示行业间共同成交的强弱。例如房地产和金融行业的共同成交的程度比其与其他行业更加明显。

对Co-trading network进行聚类分析

使用普聚类方法对co-trading network进行聚类分析,其中聚类簇群的数量是可以自定义的。

如下图,分别使用2017至2019年每年1月份的数据,构建了三个co-trading network,并在每个网络中选取了权重排名前1%的边。可以发现,在过去的3年中,行业间的co-trading越来越多。而如金融,地产及能源行业,它们行业内的co-trading反而越来越弱。这说明,co-trading随着时间的变化还是非常大的,对co-trading network进行时序的分析也尤为重要。

如果把每天的co-trading network使用上述方法取类为20个簇群,我们可以计算过取3年中任意两天聚类结果的相似度(对于两种聚类的相似度,作者参考Hubert和Arabie 1985,使用Adjusted Rand Index),并绘制以下热度图。可以看出,沿着热度图左上至右下方向夜色越来越深,而且按颜色深浅可以明显分为三个区域,说明市场存在3个不同的regime。

对以上热力图进行普聚类,过去三年,每天所属簇群的结果如下:

Co-trading network与收益率协方差矩阵的关系

对股票收益率协方差矩阵与co-trading network(下式C)及股票行业分类(下式S,作为控制变量)进行回归分析:

\hat{\boldsymbol{\Sigma}}_t^R=\gamma_t^C \mathbf{C}_t+\gamma_t^S \mathbf{S}+\mathbf{E}_t

使用quadratic assignment procedure (QAP)方法进行回归,结果如下,可以看出co-trading network与协方差矩阵之间的关系显著为正。

co-trading network是否能提高组合表现?

对于一个线性因子模型:

\mathbf{r}_\tau=\beta \mathbf{f}_\tau+\mathbf{u}_\tau

协方差可以用以下等式表示:

\boldsymbol{\Sigma}=\beta \boldsymbol{\Sigma}^f \beta^T+\boldsymbol{\Sigma}^u

参考Ait-Sahalia和Xiu (2017),上式右边两项可以由特征值及特征向量进行估计:

\begin{aligned} \beta \mathbf{\Sigma}^f \beta^T & \approx \sum_{k=1}^K \lambda_k \mathbf{v}_k \mathbf{v}_k^T \\ \boldsymbol{\Sigma}^u & \approx \sum_{k=K+1}^N \lambda_k \mathbf{v}_k \mathbf{v}_k^T, \end{aligned}

其中第二项表示股票的特质收益矩阵,参考Ait-Sahalia和Xiu (2017),为了提高协方差估计的稳健性,可以对特质收益矩阵进行过滤,仅保留在某一分类方法下属于同一聚类的元素值。作者分别使用了基于GICS的固定分类及基于co-trading network的时变聚类法。使用基于前一交易日5分钟数据计算的协方差矩阵作为对于下一交易日的协方差估计,并测试全局最小方差组合的收益。以下是两个分类方法的对比,可以明显看出基于co-trading聚类作为分类的方法明显优于GICS,策略的表现更加稳健,夏普比率更高:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档