Barra系列（二）：收益模型

量化小白

发布于 2020-02-25 16:13:07

2.2K0

发布于 2020-02-25 16:13:07

文章被收录于专栏：量化小白上分记

作者：一令

摘要

不同国家的市场也是影响个股超额收益的因素之一，需要在收益模型中加入国家因子。为了让收益模型解唯一，约束市值加权的行业因子收益率之和为零。

在模型存在异方差的情况下可以使用加权最小二乘法替代普通最小二乘法，并假设残差收益与个股市值平方根成反比。在模型存在残差分布不服从正态分布的情况下可以使用稳健回归替代最小二乘法，令参数估计更为稳健。

选择加权最小二乘法对沪深300成分股、中证500成分股、全市场样本个股构建回归模型，其中沪深300成分股样本下的回归模型拟合程度较好。十个风格因子中，Size因子和Liquidity因子在三个样本下风格最为明显，其中Liquidity因子收益方向稳定。

一、背景

本系列通过介绍Barra模型，测试Barra因子表现，窥探市场风格，通过构建多因子风险-收益模型形成一套有效的主动投资管理体系。

本篇是Barra系列的第二篇。在上一篇中，我们简单介绍了主动投资组合管理的理论基础，Barra风格因子的构建方法，并且建立了一套通用的因子分析框架用于检测因子的有效性、稳定性，以及单调性。

本篇着重介绍Barra模型中的收益模块。收益模块为组合优化过程中的必要模块，通过预测因子收益率预测个股收益，最终和风险模块一起输出特定风险-收益特征的投资组合。

二、收益模型简述

在USE3中，收益模型为下面的形式：

其中，

为行业因子暴露度，

为对应的行业因子收益率，

为风格因子暴露度，

为对应的风格因子收益率，

为个股超额收益，回归为日频回归。

在USE4中，收益模型中加入国家因子，意在不同国家的市场也是影响收益率的因素之一。对于同一个市场，如A股市场，所有股票对该因子的暴露度为1。国家因子不等同于市场因子，个股波动相对于市场的敏感程度，即个股的系统性风险特征，已经由Beta因子表征。

多因子模型的理论来源是套利定价理论（APT）。根据APT的描述，当市场存在套利行为时，套利使得市场最终形成一个均衡点，在这个均衡点上，模型中的截距等于无风险利率。因此当套利工具充分，套利行为普遍的时候，收益模型中可以直接将因变量设置为每只股票的风险溢价收益率，即个股收益率减去无风险利率，从而省略截距项。中国A股市场不符合该条件，这意味着在中国A股市场进行多因子模型设计时，国家因子是应该纳入模型的自变量。

由于国家因子和行业因子之和完全正相关，模型的解不唯一，需要另外加入一个限制条件另解唯一。在USE4中，限制市值加权的行业因子收益之和为零，则收益模型为如下形式：

三、回归模型选择

I、普通最小二乘法

经典的普通最小二乘法（下称OLS）依赖一系列前提假设：

模型对于参数而言是线性的，但是对于自变量没有线性的要求；
样本从总体中随机抽样而得；
残差的条件均值为零：

，即残差项期望为零，且与自变量X独立；

自变量之间不存在完全的线性相关关系；
残差满足独立同分布（i.i.d.），即残差间互相独立，相关性为零：

，且残差同方差：

残差服从正态分布：

下面，我们简单测试模型的残差是否满足同方差、服从正态分布的假设。

异方差性是相对于同方差而言的，即残差的方差不是常数。如果存在异方差的情况，OLS回归中的回归系数依然是无偏估计量，但是无法进行假设检验和区间估计，因为t统计量不再服从t分布，F统计量不再服从F分布。

检验异方差性是否存在的方法包括画图检验和统计量检验。画图检验的方法为画出残差和应变量拟合值的散点图，如果残差随着应变量拟合值的变化未表现出明显特征，则说明为同方差，否则，说明有异方差。

下图为随机选择的一个时间截面的沪深300成分股样本在两种不同回归方法下的残差散点图，可以看出残差异方差的情况并不严重。以中证500成分股为样本的异方差问题同样较轻，而全市场样本的异方差问题则相对严重。

用统计量检验异方差是否存在的方法包括Breusch-Pagan检验和Whit检验等。

Breusch-Pagan Test

另

代表上文回归模型中的残差项，

表示模型中的应变量，假设残差均值为零。

原假设为

，即不存在异方差。

通过统计量LM服从卡方分布可以判断是否拒绝原假设，若统计量显著，表明模型存在异方差。

White Test

另

代表上文回归模型中的残差项，

表示模型中的应变量，假设残差均值为零。

原假设为

，即不存在异方差。

通过统计量LM服从卡方分布可以判断是否拒绝原假设，若统计量显著，表明模型存在异方差。

II、加权最小二乘法

加权最小二乘法（下称WLS）是解决异方差问题的方法之一。OLS将样本中的每项数据的重要性同等看待，而WLS是给这些数据赋予不同的权重。WLS是一种特殊的广义最小二乘法（下称GLS），在方差形式已知的情况下可以使用WLS，而方差形式未知的情况下需要先对方差的函数形式进行估计，再使用GLS回归。

根据USE4中的描述，假设残差收益与总市值平方根成反比，因此以总市值开根号的倒数作为WLS中的权重，即残差的方差为常数乘以权重

：

原回归公式做如下变换：

则新的残差方差转变为常数：

用Breusch-Pagan检验从统计量上判断异方差是否存在，分别统计三个样本下的Breusch-Pagan检验的p值均值，结果如下表所示。若p值小于0.05,表示在95%置信水平下存在异方差，若p值大于0.05，表示不能拒绝原假设，不能说明异方差存在。总体而言，沪深300成分股样本和中证500成分股样本下认为不存在异方差，而全市场样本下的异方差问题严重， WLS（或GLS）无法很好解决异方差问题。

III、稳健回归

残差不满足服从正态分布的假设时，最小二乘法不一定是最合适的方法。当残差的分布瘦尾时，即残差的极端值较少时，不会产生太大的影响，但是当分布肥尾时，大量的极端值会对模型拟合产生较大影响。检验残差是否服从正态分布，可以通过残差的QQplot辨别。

与上文异方差的检验使用同一时间截面的样本，分别检测三个样本在该期的残差分布情况。下图为沪深300成分股样本和中证500成分股样本在两种回归方法下得到的残差QQplot，从残差分布可以看出有较轻微的肥尾现象，可以认为大致服从正态分布，参数估计可靠。

相较之下，同一时间截面的中证500成分股和全市场样本的残差分布图形弯曲，说明分布有偏，尤其是全市场样本的情况更为严重。

稳健回归（robust regression）是一种一定程度上解决残差分布不正态的替代方案。不同的目标函数定义不同的稳健回归方法，包括M-Estimation，Least Trimmed Squares等。这里介绍最常用的M-Estimation的方法。

对于收益模型：

M-Estimation的目标函数为：

函数有一系列可选的形式，包括：

LS（least squares）：

LAD（least absolute deviation）regression：

Huber method：

为了使目标函数最小化，令

对

求偏导后设为零，可得到参数估计值

。

我们选择Huber method，并对全部样本时间范围内（2014年1月至2018年12月）的沪深300成分股分别进行OLS回归，WLS回归，稳健回归，下表陈列了三种回归方法下的风格因子的估计值和参数估计值的标准误差（BSE）。三种回归方法下，斜率，即因子收益率相差无几，WLS和OLS的BSE十分接近，而RLM估计参数的BSE总体小于OLS和WLS，表示在稳健回归下的参数估计更加可靠。

四、回归结果

由于沪深300和中证500的残差异方差问题和残差分布肥尾情况不严重，我们和USE4中的描述保持一致，选择WLS的回归方法，以市值平方根的倒数为回归权重，在模型中加入国家因子，且满足市值加权的行业因子收益率为零的约束。分别求得三个样本下的因子收益率估计值，画出因子收益累计曲线，并记录表征回归模型拟合程度的统计量月均adjusted rsquared。

下图分别为沪深300成分股、中证500成分股，以及全市场样本下的WLS回归所得的月均adjusted rsquared。沪深300成分股样本下模型拟合程度最优，月均adjusted rsquared大约为30%，中证500成分股和全市场样本下模型拟合程度较差，月均adjusted rsquared不到15%，尤其是全市场样本，结合前文的异方差等问题，全市场样本不太适合做进一步研究的标的。

下图分别为沪深300成分股、中证500成分股、全市场样本下回归所得的因子收益率累计曲线。在三个样本下，Size因子和Liquidity因子表现尤为突出，负向收益明显。Size因子在2017年之后发生明显的风格转换情况，而Liquidity因子在样本时间范围内方向稳定，表现最好。某些因子在不同样本下表现不一，如Midcapitalization因子在全市场样本下收益曲线走势强劲，但在另外两个样本下则表现不佳；Earningsyield因子在沪深300成分股样本下最为走势强劲，在另两个样本下数值较低，但方向稳定。总体而言，全市场样本下大部分因子收益数值更大，Size因子和Liquidity因子在三个样本下风格最为明显，其中Liquidity因子收益方向稳定。

五、总结

根据上文的分析，可以发现沪深300成分股和中证500成分股样本的数据质量整体好于全市场样本，回归模型拟合程度更优，在后续的研究中可以以之为样本构建风险模块，进而从中选股。而全市场样本存在诸多问题，比如异方差问题严重、回归拟合程度不佳等，在后续的研究中，该样本不再作为我们的研究范围。

另外，因子收益表现在不同样本下有差异，规模等因子也在回溯时间范围内再一次体现出其风险性，在组合优化步骤有必要根据不同样本做不同的风险约束。

参考文献

Jose Menchero, J., D. J. Orr, and J. Wang(2011). The Barra US Equity Model (USE4). Methodology Notes.
Yang Liu, Jose Menchero, J., D. J. Orr, and J. Wang(2011). The Barra US Equity Model (USE4). Empirical Notes.
华泰金工，多因子1：华泰多因子模型体系初探
光大证券，光大证券多因子系列报告一：因子测试框架
John A. Rice. Mathematical Statistics and Data Analysis.

原创不易，未经授权禁止转载。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-02-19，如有侵权请联系 cloudcommunity@tencent.com 删除

size

本文分享自量化小白躺平记微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

size

登录后参与评论

0 条评论

热度

Barra系列（二）：收益模型

Barra系列（二）：收益模型

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐