趁着脑子兴奋,接着把简单线性回归 python 部分写了,下次的更新应该就换多元的线性回归了,不过不知道是哪天,我也很难确定时间,这个季节太忙了,默默无语中......
1. 前提
为保证 R 与 python 的对比性,我们还是使用 Boston 数据,但为纯粹的使用 python,我不使用 `reticulate` 这样子更方便在 python 里轻松调取 R 数据的软件包,我把 Boston 导出为 csv 格式数据,然后使用 pandas 的 read_csv 去读取数据。Python 作为数据科学的工具方面讲,可以完成线性回归有很多种方式,具体可自己网上搜索,但我发现最好用的是 statsmodels 这个模块,至于为什么选择这个,看名字就懂了吧,如果不信,接着看下面的内容:
首先看到的是,Python 导入数据也很方便的,类似于 tidyverse 包,或者应该说二者比较像,另外只要用 Python 分析数据,基本上是没法绕过 numpy 和 pandas 的,语法类似 R 中的 dataframe 和 array。
至于分析过程,也很简单,我们直接上代码和结果:
结果也有 summary,但比 R 的更全面,连 AIC, BIC 这样对于生态学里面间的相对少的参数都有了:
作图查看拟合结果也很方便,使用和matlab比较像的 matplotlib
另外需要讲的是,这个模块参考了 R 中的公式,新版本都支持使用 R 公式的方式计算模型,而且他内置了比较多的图形,例如,“大名鼎鼎”的 QQ 图:
以及一些其他的,常用的图形,具体可到其官网上找,这里示范其中的两个:
当然,对于 Python 我是初学的不能再初学了,如果有错误或需要补充的地方请指明。欢迎关注微信号:
领取专属 10元无门槛券
私享最新 技术干货