写在前面
我们构建了非常强大的私募基金数据库,并基于这个数据库,衍生出了FOF Easy数据可视化终端和FOF Power组合基金管理系统,涉及到非常多复杂的模型及算法。在背后支撑着的,是我们可爱又有实力的研发同志们,他们大多有着非常深厚的金融统计背景。因此,私募云通将在接下来一段时间内,推出《用Python玩转统计模型》系列,用最通俗易懂的语言带你走进统计模型的世界。
赶快转发,让更多小伙伴知道这个消息吧!
什么是OLS回归?
回归分析是实现从数据到价值的不二法门。
它主要包括线性回归、0-1回归、定序回归、计数回归,以及生存回归五种类型。
我们来讨论最基础的情况——一元线性回归。它有如下数学模型:
其中,a 为截距,b为模型的回归系数,ε为误差项。
a和 b 是模型的参数。我们的目标就是选择合适的参数,让这一线性模型最好地拟合观测值。
最常见的拟合方法是最小二乘法,即OLS回归。它时刻关注着实际测量数据,以及拟合直线上的相应估计值,目的是使二者之间的残差有最小的平方和。即:
为了使残差的平方和最小,我们只需要分别对a、b求偏导,然后令偏导数等于0。立即推出a、b值:
总之,OLS回归的原理是,当预测值和实际值距离的平方和最小时,我们就选定模型中的参数。
OLS模型能反映出最真实的关系吗?
答案是否定的。
但是由于它的计算成本低,并且相比复杂模型更容易解释,因此OLS回归被广泛地接受。
模型估计出来后,我们要回答的问题是——这个模型对因变量的解释力如何。
R²是“在这个回归关系当中,因变量的变异能被自变量解释的比例”。它的值越接近1,说明回归直线对观测值的拟合程度越好。
P 值是用来判定假设检验结果的另一个参数。它是指统计概要与实际观测数据相同的概率,如果P值很小,说明原假设情况发生的概率很小。但偏偏这个小概率事件出现了,这时,根据小概率原理,我们就有理由拒绝原假设。总之,P值越小,表明该模型越可信。一般情况下,P值小于0.05,我们就认为结果显著,通过了5%的显著性检验。
利用Python实现OLS回归
数据简介
我们以鹏华资产-清水源(JR000001)为例,对该基金近两年的周频复权累计净值收益率关于沪深300指数和中证500指数的收益率进行简单的ols回归。
OLS实证
1)从MYSQL读取数据
2)调取样本基金的复权累计净值数据
3)数据处理和计算
4)建立OLS回归模型
OLS回归结果分析
OLS的回归结果如下:
其中x1和x2分别代表沪深300和中证500指数的收益率,左下coef的一列就是计算出的回归系数。从上表(右上角)可以看出,R2值达到了0.839,表示我们的回归关系可以解释因变量83%以上的变异,该回归模型对观测值的拟合程度较好。
上图中P值显示,中证500收益率的系数显著;但沪深300收益率的系数并不显著,没有通过5%的显著性检验。
总结
OLS回归在计算成本等方面占有一定优势,但有时不太具有说服力。例如,模型可能存在异方差性。这时我们如果仍采用普通最小二乘法估计模型参数,就会产生一系列不良的后果,如:参数估计量非有效、变量的显著性检验失去意义、模型的预测失效等。
所以,在本文中我们首先进行简单的ols回归。在后续报告中,私募云通小伙伴继续带您用python玩转各种统计模型,敬请期待。
本文来自企鹅号 - fofpower媒体
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文来自企鹅号 - fofpower媒体
如有侵权,请联系 cloudcommunity@tencent.com 删除。