前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >最小二乘回归的Python实现

最小二乘回归的Python实现

作者头像
企鹅号小编
发布2018-01-29 10:25:33
2.5K0
发布2018-01-29 10:25:33
举报
文章被收录于专栏:人工智能人工智能

写在前面

我们构建了非常强大的私募基金数据库,并基于这个数据库,衍生出了FOF Easy数据可视化终端和FOF Power组合基金管理系统,涉及到非常多复杂的模型及算法。在背后支撑着的,是我们可爱又有实力的研发同志们,他们大多有着非常深厚的金融统计背景。因此,私募云通将在接下来一段时间内,推出《用Python玩转统计模型》系列,用最通俗易懂的语言带你走进统计模型的世界。

赶快转发,让更多小伙伴知道这个消息吧!

什么是OLS回归?

回归分析是实现从数据到价值的不二法门。

它主要包括线性回归、0-1回归、定序回归、计数回归,以及生存回归五种类型。

我们来讨论最基础的情况——一元线性回归。它有如下数学模型:

其中,a 为截距,b为模型的回归系数,ε为误差项。

a和 b 是模型的参数。我们的目标就是选择合适的参数,让这一线性模型最好地拟合观测值。

最常见的拟合方法是最小二乘法,即OLS回归。它时刻关注着实际测量数据,以及拟合直线上的相应估计值,目的是使二者之间的残差有最小的平方和。即:

为了使残差的平方和最小,我们只需要分别对a、b求偏导,然后令偏导数等于0。立即推出a、b值:

总之,OLS回归的原理是,当预测值和实际值距离的平方和最小时,我们就选定模型中的参数。

OLS模型能反映出最真实的关系吗?

答案是否定的。

但是由于它的计算成本低,并且相比复杂模型更容易解释,因此OLS回归被广泛地接受。

模型估计出来后,我们要回答的问题是——这个模型对因变量的解释力如何。

R²是“在这个回归关系当中,因变量的变异能被自变量解释的比例”。它的值越接近1,说明回归直线对观测值的拟合程度越好。

P 值是用来判定假设检验结果的另一个参数。它是指统计概要与实际观测数据相同的概率,如果P值很小,说明原假设情况发生的概率很小。但偏偏这个小概率事件出现了,这时,根据小概率原理,我们就有理由拒绝原假设。总之,P值越小,表明该模型越可信。一般情况下,P值小于0.05,我们就认为结果显著,通过了5%的显著性检验。

利用Python实现OLS回归

数据简介

我们以鹏华资产-清水源(JR000001)为例,对该基金近两年的周频复权累计净值收益率关于沪深300指数和中证500指数的收益率进行简单的ols回归。

OLS实证

1)从MYSQL读取数据

2)调取样本基金的复权累计净值数据

3)数据处理和计算

4)建立OLS回归模型

OLS回归结果分析

OLS的回归结果如下:

其中x1和x2分别代表沪深300和中证500指数的收益率,左下coef的一列就是计算出的回归系数。从上表(右上角)可以看出,R2值达到了0.839,表示我们的回归关系可以解释因变量83%以上的变异,该回归模型对观测值的拟合程度较好。

上图中P值显示,中证500收益率的系数显著;但沪深300收益率的系数并不显著,没有通过5%的显著性检验。

总结

OLS回归在计算成本等方面占有一定优势,但有时不太具有说服力。例如,模型可能存在异方差性。这时我们如果仍采用普通最小二乘法估计模型参数,就会产生一系列不良的后果,如:参数估计量非有效、变量的显著性检验失去意义、模型的预测失效等。

所以,在本文中我们首先进行简单的ols回归。在后续报告中,私募云通小伙伴继续带您用python玩转各种统计模型,敬请期待。

本文来自企鹅号 - fofpower媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - fofpower媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档