《Mastering Machine Learning with Python in Six Steps》2

3.4 回归

这一部分先讲了几种回归的模型,然后讲了几种诊断。

几种回归的模型1. Linear regression

R-squared:在 0~1 之间,越接近 1 模型越好

RMSE

MAE

2. Polynomial Regression

可以通过 from sklearn.preprocessing import PolynomialFeatures 实现,用 R-squared 看哪个degree好一些。

3. Multivariate Regression

例如房价就会由 Bedrooms,Bathrms 等多个因素决定。

此处会涉及到 Multicollinearity 多重共线性问题,即多个自变量彼此强相关这时应该只使用其中一个自变量。

可以用 VIF 来检查多重共线性:

方法就是:

1.plot correlation matrix

2.Remove multicollinearity

3.Build the multivariate linear regression model

几种诊断:1. outliers

通过执行 Bonferroni outlier test,得到 p value < 0.05 为影响精度的异常值。

2. Homoscedasticity and Normality

误差方差应该是常数,且误差应该是正态分布的。

3. Over-fitting and Under-fitting

随着变量数的增加,模型的复杂性增加,过拟合的概率也会增加。

Regularization

是其中一种可以缓解过拟合问题的方法,常用 Ridge 和 LASSO 回归通过惩罚系数的大小来处理这个问题。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180203G0BT6H00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券