统计学习简单线性回归实战之二

趁着脑子兴奋,接着把简单线性回归 python 部分写了,下次的更新应该就换多元的线性回归了,不过不知道是哪天,我也很难确定时间,这个季节太忙了,默默无语中......

1. 前提

为保证 R 与 python 的对比性,我们还是使用 Boston 数据,但为纯粹的使用 python,我不使用 `reticulate` 这样子更方便在 python 里轻松调取 R 数据的软件包,我把 Boston 导出为 csv 格式数据,然后使用 pandas 的 read_csv 去读取数据。Python 作为数据科学的工具方面讲,可以完成线性回归有很多种方式,具体可自己网上搜索,但我发现最好用的是 statsmodels 这个模块,至于为什么选择这个,看名字就懂了吧,如果不信,接着看下面的内容:

首先看到的是,Python 导入数据也很方便的,类似于 tidyverse 包,或者应该说二者比较像,另外只要用 Python 分析数据,基本上是没法绕过 numpy 和 pandas 的,语法类似 R 中的 dataframe 和 array。

至于分析过程,也很简单,我们直接上代码和结果:

结果也有 summary,但比 R 的更全面,连 AIC, BIC 这样对于生态学里面间的相对少的参数都有了:

作图查看拟合结果也很方便,使用和matlab比较像的 matplotlib

另外需要讲的是,这个模块参考了 R 中的公式,新版本都支持使用 R 公式的方式计算模型,而且他内置了比较多的图形,例如,“大名鼎鼎”的 QQ 图:

以及一些其他的,常用的图形,具体可到其官网上找,这里示范其中的两个:

当然,对于 Python 我是初学的不能再初学了,如果有错误或需要补充的地方请指明。欢迎关注微信号:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180702G00ILX00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券