3.4 回归
这一部分先讲了几种回归的模型,然后讲了几种诊断。
几种回归的模型1. Linear regression
R-squared:在 0~1 之间,越接近 1 模型越好
RMSE
MAE
2. Polynomial Regression
可以通过 from sklearn.preprocessing import PolynomialFeatures 实现,用 R-squared 看哪个degree好一些。
3. Multivariate Regression
例如房价就会由 Bedrooms,Bathrms 等多个因素决定。
此处会涉及到 Multicollinearity 多重共线性问题,即多个自变量彼此强相关这时应该只使用其中一个自变量。
可以用 VIF 来检查多重共线性:
方法就是:
1.plot correlation matrix
2.Remove multicollinearity
3.Build the multivariate linear regression model
几种诊断:1. outliers
通过执行 Bonferroni outlier test,得到 p value < 0.05 为影响精度的异常值。
2. Homoscedasticity and Normality
误差方差应该是常数,且误差应该是正态分布的。
3. Over-fitting and Under-fitting
随着变量数的增加,模型的复杂性增加,过拟合的概率也会增加。
Regularization
是其中一种可以缓解过拟合问题的方法,常用 Ridge 和 LASSO 回归通过惩罚系数的大小来处理这个问题。
领取专属 10元无门槛券
私享最新 技术干货