介绍
作为数据科学领域的新手,我介绍的第一个算法是线性回归。我将它应用于不同的数据集,并注意到它的优点和局限性。
它假设了依赖变量和自变量之间的线性关系,实际情况很少如此。作为对这个模型的一个改进,我尝试了多项式回归,它产生了更好的结果(大部分时间)。但对具有高可变性的数据集使用多项式回归机会会导致过度拟合。
来源:Pingax
我的模型总是变得太灵活了,这对于看不见的数据并不合适。然后我遇到了另一种称为回归样条曲线的非线性方法。它使用线性/多项式函数的组合来拟合数据。
在本文中,我们将通过一些线性和多项式回归的基础知识,详细研究样条曲线的含义及其在Python中的实现。
目录
了解数据
快速回顾线性回归
多项式回归:改进线性回归
回归样条的演练及其实现
分段明智的阶梯功能
基础功能
件明智的多项式
约束和样条
立方和自然立方样条
选择结的数量和位置
回归样条与多项式回归的比较
了解数据
我们的数据集包含诸如ID,年份,年龄,性别,婚姻状况,种族,教育程度,地区,工作类别,健康状况,健康保险,各种雇员的工资和工资日志等信息。为了详细关注样条回归,我将只使用“年龄”作为自变量来预测工资(因变量)。
我们开始处理数据。
#importmodules
import pandas as pd
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
%matplotlib inline
#read data_setdata = pd.read_csv(“Wage.csv”)data.head()
线性回归简介
线性回归是最简单和最广泛使用的预测建模统计技术。它是用于解决基于回归的任务的监督学习算法。
它被称为线性模型,因为它建立了依赖变量和自变量之间的线性关系。它基本上给了我们一个线性方程式,就像下面的线性方程式那样,我们的特征是具有系数的自变量
这里,我们有Y作为因变量,X是自变量,所有的beta都是系数。系数是分配给这些要素的权重。它们表示每个功能的重要性。例如,如果方程的结果与任何其他特征相比高度依赖于一个特征(X1),则意味着与任何其他特征相比,特征(X1)的系数/权重将具有更高的量值。
所以,我们试着去理解只有一个特征的线性回归,即只有一个独立变量。它被称为简单线性回归。因此,我们的等式变成
由于我们仅使用“年龄”来预测员工的“工资”,因此我们将对训练数据集执行简单线性回归,并计算验证数据集上的误差(RMSE)。
略。。。
在本文中,我们了解了回归样条及其在线性和多项式回归方面的优势。另一种生成样条的方法称为平滑样条。它与Ridge / Lasso正则化类似,因为它惩罚了损失函数和平滑函数。您可以在“统计学习入门”一书中阅读更多内容。您可以在具有高可变性的数据集上实施这些方法,并注意其差异。
本文所需要的第三方库汇总:
本文来源于网络资源
人力有限,翻译部分简介内容,若有疑问及侵权,请后台留言!
回复“回归分析”即可获取英文原文
52brain,Connect Young Brains.
领取专属 10元无门槛券
私享最新 技术干货