专栏首页量化投资与机器学习News Co-Occurrences:关注同时出现在新闻中的股票

News Co-Occurrences:关注同时出现在新闻中的股票

量化投资与机器学习公众号独家解读

量化投资与机器学公众号 QIML Insight——深度研读系列 是公众号今年全力打造的一档深度、前沿、高水准栏目。

公众号遴选了各大期刊最新论文,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!

第一期 | 第二期 | 第三期 | 第四期 | 第五期

本期遴选论文 来源:Journal of Risk and Financial Management 19 March 2019 作者:Yi Tang、Yilu Zhou、Marshall Hong 标题:News Co-Occurrences, Stock Return Correlations, and Portfolio Construction Implications

核心观点

  • 股票同时出现在新闻的频率与股票市值、股票波动及分析师覆盖度之间存在明显的关联性。
  • 个股之间的相关性随着在新闻中同时出现频率的增加而增加。
  • 个股在新闻中同时出现频率可以用于预测未来个股之间的相关性,从而应用与风险模型。

随着NLP技术的发展,新闻分析数据在量化投资中的应用的场景越来越丰富。本篇论文从新闻中同时出现不同股票(News Co-Occurrences)的角度出发,去验证其所包含的经济学含义,并探索其在量化投资中的应用。

同时出现在一篇新闻的股票之间是否有某种程度上的关联?同时出现的频率与股票关注度之间的变化是否有关系?是否会对股票之间的相关性产生影响?这些都是作者试图在文中探索的问题。

作者主要采用了线性回归的方式进行实证分析,涉及的数据及相关指标说明如下:

  • 数据时间范围:2007年5月-2016年12月
  • 股票范围:S&P1500
  • 计算准则:月度指标至少需要24个月的数据、日度指标至少需要15天的数据
  • 所有指标都在月末计算

文中涉及的其他指标的说明:

统计分析

作者首先对不同分组的股票的相关指标做了统,一共分为三组:

  • COC=1:当月至少和别的股票出现在同一篇新闻的所有股票
  • COC=0:当月未曾和别的股票出现在同一篇新闻的股票
  • All stocks:S&P500所有股票

对以上三组股票分别计算2007年5月至2016年12月每月末截面上各指标的均值,然后再计算时序上每月均值的平均值,计算结果如下表所示,可以看出:

  • 第一列Pi表示,每个月,平均有47%的股票至少和其他股票同时出现在至少一篇新闻里。
  • 和别的股票同时出现在一篇新闻的股票(COC=1)跟从未和别的股票出现在同一篇新闻的股票(COC=0)相比具有更低的风险(BETA及IVOL更低)、更高的市值(ME)及更高的分析师覆盖(CVGR),且与其他股票之间的相关性也更高(CORR)。

News Co-Occurrences与股票特征之间的关系

News Co-Occurrences截面的变动

作者采用Fama-MacBeth的方法对以下两个等式进行回归分析(先截面回归,再算回归系数在时序上的均值)

\begin{aligned} L N T F_{i j, t}=& \lambda_{0, t}+\lambda_{1, t} I N D_{i j, t-1}+\lambda_{2, t} C S_{i j, t-1}+\lambda_{3, t} G E O_{i j, t-1}+\lambda_{4, t} L N T F_{i j, t-1}+\varepsilon_{i j, t} \\ L N T F_{i j, t}=& \lambda_{0, t}+\lambda_{1, t} I N D_{i j, t-1}+\lambda_{2, t} C S_{i j, t-1}+\lambda_{3, t} G E O_{i j, t-1}+\lambda_{4, t} L N T F_{i j, t-1} \\ &+\gamma_{1, t} \overline{B E T A}_{t-1}+\gamma_{2, t} \overline{S I Z}_{t-1}+\gamma_{3, t} \overline{I V O L}_{t-1}+\gamma_{4, t} \overline{C V R G}_{t-1}+\varepsilon_{i j, t} \end{aligned}

相关变量的解释:

下表给出了回归的结果,其中Model1对应等式4,Model2对应等式5。其中Model1中,IND、CS及GEO的回归系数分别是0.073、0.098及0.032,且在置信度99%的区间里均显著。这意味着处于同一个行业,存在供应链关系或在同一个地区的股票有更高的概率出现在同一篇新闻中。即使在Model2中控制了其他变量(包括BETA、SIZE、IVOL及CVRG),IND、CS及GEO的回归结果与Model1相比基本没受影响。同时也可以看出,同时出现在新闻的数量与BETA成负相关,与SIZE和CVRG呈正相关,这个结果与表1的结果保持一致。

News Co-Occurrences的拆解

作者用LNTFP和LNTFR分别表示模型的拟合值和残差。每个月,分别计算LNTFP及LNTFR的均值和标准差,再计算时序上的统计值。在表2的B部分,Expected表示拟合值LNTFP,Shock表示残差LNTFR。可以看出,Model1和Model2的结果非常类似。再后续的分析应用中,作者选取了更完整的Model2。

News Co-Occurrences与投资者关注度之间的关系

为了研究News Co-Occurrences与投资者关注度之间的关系,作者采用了两个模型,等式6和7的区别是,等式6中News Co-Occurrences直接用LNTF表示。等式7中,News Co-Occurrences用两个变量LNTFP和LNTFR表示,它们各自有自己的回归系数,这样做就可以看出是LNTFP更重要还是LNTFR更重要。

\overline{A S V}_{i j, t}=\lambda_{0, t}+\lambda_{1, t} L N T F_{i j, t}+\varepsilon_{i j, t}
\overline{A S V}_{i j, t}=\lambda_{0, t}+\lambda_{1, t} L N T F P_{i j, t}+\lambda_{2, t} L N T F R_{i j, t}+\varepsilon_{i j, t} \prime

下表3给出了以上两个模型的回归结果,可以看出LNTF、LNTFP及LNTFR的回归系数均显著,但可以看出LNTFR相比LNTFP来的更显著,说明异常的News Co-Occurrences更能引起投资者的关注。

News Co-Occurrences VS 股票之间的相关性:同步性

作者通过以下两个模型,验证股票之间的相关性与News Co-Occurrences的关系。大部分变量在上文解释过。这里在重复下, CORR_ij,t 表示在t月,股票i与j日度收益率的相关系数。

\begin{aligned} \operatorname{CORR}_{i j, t} &=\lambda_{0, t}+\lambda_{1, t} L N T F_{i j, t}+\lambda_{2, t} \overline{A S V}_{i j, t}+\lambda_{3, t}\left(\overline{A S V}_{i j, t} \times L N T F_{i j, t}\right)+\gamma_{t} \operatorname{CORR}_{i j, t-1}+\varepsilon_{i j, t} \\ C O R R_{i j, t}=& \lambda_{0, t}+\lambda_{1, t} L N T F P_{i j, t}+\lambda_{2, t} L N T F R_{i j, t}+\lambda_{3, t} \overline{A S V}_{i j, t}+\lambda_{4, t}\left(\overline{A S V}_{i j, t} \times L N T F P_{i j, t}\right) \\ &+\lambda_{5, t}\left(\overline{A S V}_{i j, t} \times L N T F R_{i j, t}\right)+\gamma_{t} C O R R_{i j, t-1}+\varepsilon_{i j, t} \end{aligned}

以上两个模型的主要区别是,模型8使用了LNTF,用以整体判断News Co-Occurrences与股票之间的相关性是否有关系。模型9分别使用了LNTFP和LNTFR,就可以知道是LNTFP还是LNTFR与CORR的关联性更大。

表4给出了回归的结果:

其中Model(2)对应是等式8的回归结果,可以看出,ASV与ASV*LNTF的回归系数并不显著。且相比Model(1),LNTF及CORR的回归结果基本无变化。总体可以看出,News Co-Occurrences与股票之间的相关性存在显著的关联性。

其中Model(6)对应是等式9的回归结果,可以看出,相对LNTFR,LNTFP的回归系数更显著,说明长期的LNTFP与股票之间的相关性的关联程度更大。

News Co-Occurrences VS 股票之间的相关性:预测性

上一部分,我们用当期的CORR与当期的News Co-Occurrences进行回归,检验它们的同步关联性。这一次,我们用当期的News Co-Occurrences与后面K期的CORR进行回归,检验News Co-Occurrences对CORR的预测性。

\begin{aligned} C O R R_{i j, t+k}=& \lambda_{0, t}+\lambda_{1, t} L N T F_{i j, t}+\gamma_{t} C O R R_{i j, t}+\varepsilon_{i j, t \prime} \\ C O R R_{i j, t+k}=& \lambda_{0, t}+\lambda_{1, t} L N T F_{i j, t}+\lambda_{2, t} \overline{A S V}_{i j, t}+\lambda_{3, t}\left(\overline{A S V}_{i j, t} \times L N T F_{i j, t}\right)+\gamma_{t} C O R R_{i j, t}+\varepsilon_{i j, t} \\ C O R R_{i j, t+k}=& \lambda_{0, t}+\lambda_{1, t} L N T F P_{i j, t}+\lambda_{2, t} L N T F R_{i j, t}+\gamma_{t} \operatorname{CORR}_{i j, t}+\varepsilon_{i j, t} \\ C O R R_{i j, t+k}=& \lambda_{0, t}+\lambda_{1, t} L N T F P_{i j, t}+\lambda_{2, t} L N T F R_{i j, t}+\lambda_{3, t} \overline{A S V}_{i j, t}+\lambda_{4, t}\left(\overline{A S V}_{i j, t} \times L N T F P_{i j, t}\right) \\ &+\lambda_{5, t}\left(\overline{A S V}_{i j, t} \times L N T F R_{i j, t}\right)+\gamma_{t} \operatorname{CORR}_{i j, t}+\varepsilon_{i j, t} \end{aligned}

下表5给型的回归结其中PanelA对应等式10,PanelB对应等式11,PanelC对应等式12,PanelD对应等式13。果,不同的K,表示不同的预测间隔,如K=2,表示用当月的News Co-Occurrences预测未来2个月后的CORR。主要结论如下:News Co-Occurrences能够显著预测未来个股之间的相关性CORR,且长期的均值LNTFP比短期的变动LNTFR具有更强的预测性,且不随着预测间隔的增加出现衰减。

总结

以上两部分可以知道:

  • News Co-Occurrences的长期均值(LNTFP)与股票之间相关性的关联度更大
  • News Co-Occurrences的短期变化(LNTFR)与投资者对股票的异常关注关联度更大
  • News Co-Occurrences能够显著预测未来个股之间的相关性CORR,且长期的均值LNTFP比短期的变动LNTFR具有更强的预测性,且不随着预测间隔的增加出现衰减。

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业20W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。

本文分享自微信公众号 - 量化投资与机器学习(Lhtz_Jqxx),作者:全网Quant都在看

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-06-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【全网首发】机器学习该如何应用到量化投资系列(二)

    有一些单纯搞计算机、数学或者物理的人会问,究竟怎么样应用 ML 在量化投资。他们能做些什么自己擅长的工作。虽然在很多平台或者自媒体有谈及有关的问题,但是不够全面...

    量化投资与机器学习微信公众号
  • 特斯拉要用 26 亿美元股权奖励留住马斯克,咨询公司质疑太贵

    ---- 新智元推荐 来源:澎湃新闻 作者:承天蒙 【新智元导读】据澎湃新闻报道,特斯拉(Tesla)想给予 CEO 伊隆 · 马斯克(Elon Mu...

    新智元
  • 利用知识感知的交互式匹配进行个性化的新闻推荐(CS IR)

    个性化新闻推荐的核心是候选新闻和用户兴趣之间的准确匹配。大多数现有的新闻推荐方法通常从文本内容中建立候选新闻模型,并从用户点击的新闻中建立用户兴趣模型,两者是独...

    用户8128510
  • 【工具】社交数据与行为金融学如何实现超越大盘、绝对收益量

    一、互联网让大数据就在身边   互联网作为改变人类历史的产物,近年来得到了飞速的发展,随着互联网的日益普及,其正在逐渐改变人们的生活习惯。商场的购物份额正在被足...

    小莹莹
  • JPMorgan最新报告解读:基于NLP的A股交易策略(附下载)

    今天,公众号刚刚通过ChinaScope(数库)拿到了J.P. Morgan(摩根大通)关于中国A股市场的量化研究报告:

    量化投资与机器学习微信公众号
  • SSRN Capital Markets eJournals汇总翻译 20210429-20210503

    [1] Adaptive Complementary Ensemble EMD and Energy-Frequency Spectra of Cryptocu...

    量化小白
  • 量化A股舆情:基于Kafka+Faust的实时新闻流解析

    新闻消息瞬息万变,新闻舆情也对股票市场产生了明显的影响,实时新闻流数据能够为量化交易带来更多的应用场景,比如盘中的风险监控、实时的情绪及热度统计、事件驱动交易等...

    量化投资与机器学习微信公众号
  • django2 用iframe标签完成 网页内嵌播放b站视频功能

    玩蛇的胖纸
  • tf26: AI操盘手

    话说股票价格到底能不能预测 先来看一下<随机游走假说-Random Walk>。 随机游走假说(英语:Random walk hypothesis)是金...

    MachineLP
  • 上百种预训练中文词向量:Chinese-Word-Vectors

    昨天聊到腾讯 AI Lab 的词向量:相似词查询:玩转腾讯 AI Lab 中文词向量 ,今天趁热打铁,推荐Github上的一个中文词向量项目:Chinese-W...

    AINLP
  • Java杂谈之Java8重构指南

    新的语言特性常常让现存的编程模式或设计黯然失色。比如Java 5中引入了for-each循环,由于它的稳健性和简洁性,已经替代了很多显式使用迭代器的情形。Jav...

    你呀不牛
  • 驰骋股市!手把手教你如何用Python和数据科学赚钱?

    不管是否是经济达人,数据科学都是一种帮你了解一支股票的高效方式。本文作者把数据科学和机器学习技术应用到金融领域中,向你展示如何通过数据分析的方式驰骋股市,搭建自...

    大数据文摘
  • 万字长文带你解读『虚假新闻检测』最新进展

    互联网时代,假新闻铺天盖地,而且极具迷惑性,因此假新闻检测任务对逻辑的判断,以及常识的学习都需要很高的要求。今天和大家分享『虚假新闻检测』相关研究进展,包括创新...

    NewBeeNLP
  • 1分钟链圈 | 巴菲特进军区块链!欲注资印度数字支付平台Paytm母公司,多达3.6亿美元

    这里是 8 月 27 日的每日1句话新闻晚报,只需1分钟,看看全球最热、最新的区块链新闻。

    区块链大本营
  • 500款各领域机器学习数据集,总有一个是你要找的

    金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股票除权除息...

    小莹莹
  • 500款各领域机器学习数据集,总有一个是你要找的

    美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139

    华章科技
  • 无敌了!新闻情绪因子进阶来啦!

    我们详细分析对比了采用不同情绪得分计算方法的因子表现。从而得出一个很重要且结论:即情绪因子构建时应该考虑新闻与股票的相关度即情绪得分的时间衰减。基于以上的结论,...

    量化投资与机器学习微信公众号
  • 优步估值暴涨达1200亿美元!计划明年年初IPO

    据知情人士透露,优步科技公司(Uber Technologies Inc.)最近收到了华尔街银行的提议,这些银行对该公司的估值高达1200亿美元,可能会在明年年...

    新智元
  • Cloudera私有化,“大数据”时代落幕

    Cloudera终于再一次登上了新闻,一瞬间。因为它私有化了。本周二的时候,Cloudera表示被私募基金CD&R和KKR&Co以5.5B的价格给买了,也就是每...

    用户1564362

扫码关注云+社区

领取腾讯云代金券