前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一个都不能少!多行业暴露下行业因子收益研究

一个都不能少!多行业暴露下行业因子收益研究

作者头像
量化投资与机器学习微信公众号
发布2019-12-17 17:08:21
2.4K0
发布2019-12-17 17:08:21
举报

概要

最近,公众号测试了数库的行业分类数据,其基于上市公司的产品收入分项数据,能够更细致的刻画跨行业经营的上市公司的行业属性。基于该行业分类构建风险模型,相对于单一行业分类的体系,有两点优势首先能明显的提高模型的解释度,其次提纯后的行业纯因子组合之间的相关性明显降低,更有利于在组合优化的过程中控制行业风险的暴露。

正文

在风险模型的构建中,除了常用的风格因子,还需要使用行业因子来剥离股票收益中由于行业暴露带来的收益,在常用的行业分类体系中,一只股票往往只被归类于一个行业。而在多元化经营的大趋势下,上市公司的产品往往会横跨多个行业,以单一的行业划分构建风险模型并不能准确的定义一家上市公司的行业暴露。在业界公认的风险模型—BARRA模型中,也已经提及了关于多行业暴露的处理方法(具体请参考Barra USE4),其根据上市公司业务收入及资产的行业划分来加权计算公司的行业暴露。

数库的行业分类正是基于上市公司的产品收入分项数据,能够更细致的刻画跨行业经营的上市公司的行业属性,本文基于数库的行业分类数据,测试及对比在单一行业属性与多行业属性下风险模型的表现。

数据说明

1、数库行业分类

随着多元化经营的发展趋势,传统的单一行业分类模式已无法有效及时反应企业完整的业务覆盖范围及变化。数库建立的行业分类体系基于GICS全球行业分类标准,同时结合国内行业特点,主要考虑上市公司主营产品类别,根据产品的属性、收入比重进行分类,相比传统的行业分类标准更加细化,具有更明确的分类逻辑。

数库行业分类一共分为四级,其中一级行业的数量为12个,二级至四级行业的数量分别为25、68、115。行业分类的四级作为产品分类的一级科目,从而可以有效的结合数据SAM产业链进行行业分析。数库一级二级行业分类名称见下表:

表格1 数库行业分类一级、二级明细

2、构建上市公司多行业属性数据

数库SAM产业链数据的产品一级科目对应的是数库行业分类的四级科目。通过匹配上市公司主营产品在数库SAM产业链产品标准下的收入与该产品对应的数库行业分类,我们可以计算出该上市公司在不同行业上的业务分布。

杉杉股份(600884)为例,根据其2019中报披露的营收分布对应到数库SAM产品一级后的数据如下表所示,我们把这些产品收入汇总到数库二级行业分类下,计算出该公司在该报告期的二级行业属性数据。由于有其他收入项或关联交易的存在,各项产品收入除以营业总收入的占比之和可能会出现大于或小于1的情况。针对这种情况,在计算上市公司行业属性数据时,我们会做标准化处理,使最终总和为100%。

表格2 杉杉股份2019中报多行业业务分布数据

3、A股中多行业属性上市公司统计

以数库二级行业分类为基准,我们统计了2014-2019年,全部A股上市公司及中证800成分股业务分部属于多个行业的情况,如下图所示,在全部A股中,行业属性多于一个行业上市公司占比平均为60%;在中证800成分股中,该比例为62%。其中行业属性最多的公司为8个行业。大部分公司的行业属性分布在1-3个行业。

图1 A股上市公司多行业属性统计

行业纯因子组合构建

1、基于Barra(CNE5)的多因子模型构建

Barra(CNE5)模型中共有1个国家因子,多个行业因子及10个风格因子。如下式所示,其中f_c为国家因子,f_Ip为行业因子,f_Is为风格因子。

在A股的实践中,行业因子多以申万或中信一级行业分类为基础,并以虚拟变量的形式作为回归中的自变量。以这些行业分类作为行业因子时,一个股票只能属于一行业。由于申万或中信行业的一级行业分类分别有28个及29个(多余数库二级分类的25个行业),且行业的划分与数库基于GICS的行业划分有不小的差别,所以无法直接对比多行业属性下风险模型的表现。在接下来的测试,我们测试及对比了以下两类行业分类数据:

A. 原始组(多行业):以产品收入在数库各二级行业的占比作为该公司在不同行业的暴露,一家公司在所有二级行业的总暴露为1。

B. 对比组(单一行业): 以产品收入在数库各二级行业中占比最大的行业作为该上市公司的行业暴露,且设置为1。

2、相关细节设置

A、测试时间:2015-01-05至2019-10-31,日度截面回归

B、股票池选择:中证800成分股

  • 由于风格因子计算中需要长达两年多的历史数据,考虑到以全A为成份股覆盖度的不稳定性,本报告采用中证800成分股进行测试,无风险利率选取一个月SHIBOR利率。

C、 风格因子的计算方式

  • 风格因子的计算方式参照Barra-CNE5,但其中涉及分析师预期的描述变量(Descriptor)未予计算,主要包括盈利及成长风格因子。关于因子的具体的计算方式可见Barra-CNE5。

D、 截面回归的方式

  • 由于行业因子与国家因子潜在的多重线性相关,我们参考Barra对的行业因子收益(行业因子的回归系数)设置了以下限制:

其中为W_i为行业 i 的股票市值占当日中证800总市值的比例,当使用原始组数据计算当日行业市值时,行业市值等于所有股票在该行业上暴露的市值总和:

其中 I 为某行业市值,C_i为股票i在行业 i 上的暴露比例,V_i为股票 i 的市值,N为当日所有股票的数量。

在具体的回归中,我们使用解析解的形式求出了因子收益,并未使用任何回归工具,具体细节参见附录。

3、实证结果

我们基于以上的设置对中证800成分股分别采用原始组(多行业分类)及对比组(单一行业分类)进行了截面回归与测试。

A、风格因子收益对比

两组回归后的风格因子收益无显著差别,基本保持一致,说明在因子数量(回归自变量)保持一致的情况下,行业分类是否使用多行业属性对风格因子收益不会造成影响。当我们分离出截面收益由风格因子影响的部分后,我们就可以对比原始组(多行业)和对比组(单行业)的差异及造成这种差异的原因。

B、模型解释度对比

由上文可知,原始组与对比组两种行业分类并不会对风格因子的收益产生影响。那么模型解释度(用R-Square表示)的差异就可以认为是由于行业分类不同造成的。我们统计了2015年1月1日至2019年10月31日每个交易日截面回归的R-Square(见下图),得出以下数据:原始组的平均R-Square为21%,而对比组的平均R-Square为19%。也就是说采用多行业分类的方式可以使模型的解释度提高10%左右(2%/21%)

C、行业纯因子组合收益对比

关于行业纯因子组合,可以这么理解:首先,行业纯因子投资组合是零投入的多空组合。其本质是100%做多该行业,并 100%做空国家纯因子组合,该组合对应的就是该行业相对于市场的超额收益。其次,行业纯因子组合对所有风格因子的暴露为0。

我们发现大部分行业,在过去五年,都跑输了市场组合,仅有银行、半导体产品与设备及综合金融有明显的超额收益。其中原始组与收益组收益差最大的出现在以下五个数库二级行业:家庭与个人用品,医疗保健设备与服务,半导体产品与设备,医疗保健设备与药品商贸及半导体产品与设备。

如果一个行业分类能够更有效的“提纯”来自行业本身的收益,那么基于此行业分类构建的行业纯因子组合的收益之间的相关性应该更低。如下图所以,每一个立柱表示该行业与其他行业纯因子组合收益的相关系数的平均值。我们发现,原始组(多行业)行业纯因子组合之间的相关性要明显低于对比组(单行业)。这表明,在采用多行业分类的体系下更能“提纯”来自行业本身的收益,对于风险模型来说,更低的相关性意味着更有效的控制行业暴露。

附录

1、风格因子及行业纯因子组合收益曲线:

2、截面回归计算方式

把因子模型写成矩阵形式,如下:

其中X为因子暴露矩阵,f为因子收益矩阵,ε为股票特质收益向量。

以加权最小二乘法进行回归,权重如下:

其中:

e为股票i当日的总市值。

最终就是求以下等式的最小值的解析解:

为了避免回归时出现奇异矩阵无法求逆矩阵的情况,设定以下线性约束:

其中W_li为属于行业 i 所有股票的市值占参与回归的所有股票总市值的比例。根据Ruud(2000),因子收益矩阵f可以改写为以下形式:

其中:

则MSE可写为:

求解以上等式最小值的解析解可得因子收益f为:

数库通过自主研发的资讯采集平台灵活迅速的抓取互联网上的海量财经信息,并通过强大的处理能力,准确挖掘所需数据,如智能标签、实体识别及情绪识别等。目前,该系统已覆盖中国大陆主流财经媒体及主要行业网站,总计3000+网站新闻版面,平均每5分钟抓取一次,每日新增新闻抓取量约20000条。更多关于数库智能资讯系统的详细介绍可参考数库智能资讯用户手册及数库NLP技术白皮书(点击阅读原文)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档