回归样条函数简介

文章来源：企鹅号 - 我爱脑科学网

介绍

作为数据科学领域的新手，我介绍的第一个算法是线性回归。我将它应用于不同的数据集，并注意到它的优点和局限性。

它假设了依赖变量和自变量之间的线性关系，实际情况很少如此。作为对这个模型的一个改进，我尝试了多项式回归，它产生了更好的结果（大部分时间）。但对具有高可变性的数据集使用多项式回归机会会导致过度拟合。

来源：Pingax

我的模型总是变得太灵活了，这对于看不见的数据并不合适。然后我遇到了另一种称为回归样条曲线的非线性方法。它使用线性/多项式函数的组合来拟合数据。

在本文中，我们将通过一些线性和多项式回归的基础知识，详细研究样条曲线的含义及其在Python中的实现。

了解数据

快速回顾线性回归

多项式回归：改进线性回归

回归样条的演练及其实现

分段明智的阶梯功能

基础功能

件明智的多项式

约束和样条

立方和自然立方样条

选择结的数量和位置

回归样条与多项式回归的比较

了解数据

我们的数据集包含诸如ID，年份，年龄，性别，婚姻状况，种族，教育程度，地区，工作类别，健康状况，健康保险，各种雇员的工资和工资日志等信息。为了详细关注样条回归，我将只使用“年龄”作为自变量来预测工资（因变量）。

我们开始处理数据。

＃importmodules

import pandas as pd

import numpy as np

import statsmodels.api as sm

import matplotlib.pyplot as plt

％matplotlib inline

＃read data_setdata = pd.read_csv（“Wage.csv”）data.head（）

线性回归简介

线性回归是最简单和最广泛使用的预测建模统计技术。它是用于解决基于回归的任务的监督学习算法。

它被称为线性模型，因为它建立了依赖变量和自变量之间的线性关系。它基本上给了我们一个线性方程式，就像下面的线性方程式那样，我们的特征是具有系数的自变量

这里，我们有Y作为因变量，X是自变量，所有的beta都是系数。系数是分配给这些要素的权重。它们表示每个功能的重要性。例如，如果方程的结果与任何其他特征相比高度依赖于一个特征（X1），则意味着与任何其他特征相比，特征（X1）的系数/权重将具有更高的量值。

所以，我们试着去理解只有一个特征的线性回归，即只有一个独立变量。它被称为简单线性回归。因此，我们的等式变成

由于我们仅使用“年龄”来预测员工的“工资”，因此我们将对训练数据集执行简单线性回归，并计算验证数据集上的误差（RMSE）。

略。。。

在本文中，我们了解了回归样条及其在线性和多项式回归方面的优势。另一种生成样条的方法称为平滑样条。它与Ridge / Lasso正则化类似，因为它惩罚了损失函数和平滑函数。您可以在“统计学习入门”一书中阅读更多内容。您可以在具有高可变性的数据集上实施这些方法，并注意其差异。

本文所需要的第三方库汇总：

本文来源于网络资源

人力有限，翻译部分简介内容，若有疑问及侵权，请后台留言！

回复“回归分析”即可获取英文原文

52brain,Connect Young Brains.

发表于: 2018-04-152018-04-15 10:35:46
原文链接：http://kuaibao.qq.com/s/20180415G0DC6B00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

回归样条函数简介

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐