最小二乘回归的Python实现

写在前面

我们构建了非常强大的私募基金数据库,并基于这个数据库,衍生出了FOF Easy数据可视化终端和FOF Power组合基金管理系统,涉及到非常多复杂的模型及算法。在背后支撑着的,是我们可爱又有实力的研发同志们,他们大多有着非常深厚的金融统计背景。因此,私募云通将在接下来一段时间内,推出《用Python玩转统计模型》系列,用最通俗易懂的语言带你走进统计模型的世界。

赶快转发,让更多小伙伴知道这个消息吧!

什么是OLS回归?

回归分析是实现从数据到价值的不二法门。

它主要包括线性回归、0-1回归、定序回归、计数回归,以及生存回归五种类型。

我们来讨论最基础的情况——一元线性回归。它有如下数学模型:

其中,a 为截距,b为模型的回归系数,ε为误差项。

a和 b 是模型的参数。我们的目标就是选择合适的参数,让这一线性模型最好地拟合观测值。

最常见的拟合方法是最小二乘法,即OLS回归。它时刻关注着实际测量数据,以及拟合直线上的相应估计值,目的是使二者之间的残差有最小的平方和。即:

为了使残差的平方和最小,我们只需要分别对a、b求偏导,然后令偏导数等于0。立即推出a、b值:

总之,OLS回归的原理是,当预测值和实际值距离的平方和最小时,我们就选定模型中的参数。

OLS模型能反映出最真实的关系吗?

答案是否定的。

但是由于它的计算成本低,并且相比复杂模型更容易解释,因此OLS回归被广泛地接受。

模型估计出来后,我们要回答的问题是——这个模型对因变量的解释力如何。

R²是“在这个回归关系当中,因变量的变异能被自变量解释的比例”。它的值越接近1,说明回归直线对观测值的拟合程度越好。

P 值是用来判定假设检验结果的另一个参数。它是指统计概要与实际观测数据相同的概率,如果P值很小,说明原假设情况发生的概率很小。但偏偏这个小概率事件出现了,这时,根据小概率原理,我们就有理由拒绝原假设。总之,P值越小,表明该模型越可信。一般情况下,P值小于0.05,我们就认为结果显著,通过了5%的显著性检验。

利用Python实现OLS回归

数据简介

我们以鹏华资产-清水源(JR000001)为例,对该基金近两年的周频复权累计净值收益率关于沪深300指数和中证500指数的收益率进行简单的ols回归。

OLS实证

1)从MYSQL读取数据

2)调取样本基金的复权累计净值数据

3)数据处理和计算

4)建立OLS回归模型

OLS回归结果分析

OLS的回归结果如下:

其中x1和x2分别代表沪深300和中证500指数的收益率,左下coef的一列就是计算出的回归系数。从上表(右上角)可以看出,R2值达到了0.839,表示我们的回归关系可以解释因变量83%以上的变异,该回归模型对观测值的拟合程度较好。

上图中P值显示,中证500收益率的系数显著;但沪深300收益率的系数并不显著,没有通过5%的显著性检验。

总结

OLS回归在计算成本等方面占有一定优势,但有时不太具有说服力。例如,模型可能存在异方差性。这时我们如果仍采用普通最小二乘法估计模型参数,就会产生一系列不良的后果,如:参数估计量非有效、变量的显著性检验失去意义、模型的预测失效等。

所以,在本文中我们首先进行简单的ols回归。在后续报告中,私募云通小伙伴继续带您用python玩转各种统计模型,敬请期待。

本文来自企鹅号 - fofpower媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户3246163的专栏

4.1 市场风险

daily 5% VaR as $1000: 有5%的概率一天的损失大于¥1000

60530
来自专栏机器之心

学界 | CMU提出对抗生成网络:可实现对人脸识别模型的神经网络攻击

33770
来自专栏AI2ML人工智能to机器学习

评价参数估算的常用指标

前面“ 回归分析中的问题和修正的探讨(下篇)”,讲到了无偏性和有效性, 这里把评价参数估计的常用指标简述下下。

11640
来自专栏企鹅号快讯

德国图宾根大学发布可扩展对抗黑盒攻击,仅通过观察决策即可愚弄深度神经网络

原文来源:arXiv 作者:Wieland Brendel、Jonas Rauber、Matthias Bethge 编译:嗯~阿童木呀、哆啦A亮 不知道大家有...

22290
来自专栏Pulsar-V

SLAM初探(二)

相机标定 相机的内参矩阵 在OpenCV的3D重建中(opencv中文网站中:照相机定标与三维场景重建),对摄像机的内参外参有讲解: 外参:摄像机的旋转平移属于...

44050
来自专栏ml

机器学习之最小二乘法

1.背景:      1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星...

37460
来自专栏AI2ML人工智能to机器学习

攒说 Geoff Hinton

大家都知道深度学习的鼻祖Geoff Hinton, 传说, 他安静的办公室, 经常会突然传出一句很大声的自言自语, 就是 我现在终于理解大脑怎么工作的啦(I u...

9010
来自专栏数据科学与人工智能

【数据挖掘】详细解释数据挖掘中的 10 大算法(上)

在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下。 一旦你知道了这些算法是什么、怎么工作、能做什么、在...

26450
来自专栏AI科技评论

学界 | OpenAI最新研究:“对抗样本”能轻易黑掉AI系统,如何抵御?

AI科技评论按:近日,OpenAI发表最新研究,论述了AI安全领域的一大隐忧:“对抗样本”,它可以轻易地让机器学习系统产生误判,这会对AI的应用实践产生影响。在...

40450
来自专栏量化投资与机器学习

【独家发送】机器学习该如何应用到量化投资系列(四)——关于涨跌的思考基于Python

编辑部 微信公众号 关键字全网搜索 『量化投资』:排名第一 『量 化』:排名第二 『机器学习』:排名第三 我们会再接再厉 成为全网优质的金融、技术技...

47270

扫码关注云+社区

领取腾讯云代金券