首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

回归样条函数简介

介绍

作为数据科学领域的新手,我介绍的第一个算法是线性回归。我将它应用于不同的数据集,并注意到它的优点和局限性。

它假设了依赖变量和自变量之间的线性关系,实际情况很少如此。作为对这个模型的一个改进,我尝试了多项式回归,它产生了更好的结果(大部分时间)。但对具有高可变性的数据集使用多项式回归机会会导致过度拟合。

来源:Pingax

我的模型总是变得太灵活了,这对于看不见的数据并不合适。然后我遇到了另一种称为回归样条曲线的非线性方法。它使用线性/多项式函数的组合来拟合数据。

在本文中,我们将通过一些线性和多项式回归的基础知识,详细研究样条曲线的含义及其在Python中的实现

目录

了解数据

快速回顾线性回归

多项式回归:改进线性回归

回归样条的演练及其实现

分段明智的阶梯功能

基础功能

件明智的多项式

约束和样条

立方和自然立方样条

选择结的数量和位置

回归样条与多项式回归的比较

了解数据

我们的数据集包含诸如ID,年份,年龄,性别,婚姻状况,种族,教育程度,地区,工作类别,健康状况,健康保险,各种雇员的工资和工资日志等信息。为了详细关注样条回归,我将只使用“年龄”作为自变量来预测工资(因变量)。

我们开始处理数据。

#importmodules

import pandas as pd

import numpy as np

import statsmodels.api as sm

import matplotlib.pyplot as plt

%matplotlib inline

#read data_setdata = pd.read_csv(“Wage.csv”)data.head()

线性回归简介

线性回归是最简单和最广泛使用的预测建模统计技术。它是用于解决基于回归的任务的监督学习算法。

它被称为线性模型,因为它建立了依赖变量和自变量之间的线性关系。它基本上给了我们一个线性方程式,就像下面的线性方程式那样,我们的特征是具有系数的自变量

这里,我们有Y作为因变量,X是自变量,所有的beta都是系数。系数是分配给这些要素的权重。它们表示每个功能的重要性。例如,如果方程的结果与任何其他特征相比高度依赖于一个特征(X1),则意味着与任何其他特征相比,特征(X1)的系数/权重将具有更高的量值。

所以,我们试着去理解只有一个特征的线性回归,即只有一个独立变量。它被称为简单线性回归。因此,我们的等式变成

由于我们仅使用“年龄”来预测员工的“工资”,因此我们将对训练数据集执行简单线性回归,并计算验证数据集上的误差(RMSE)。

略。。。

在本文中,我们了解了回归样条及其在线性和多项式回归方面的优势。另一种生成样条的方法称为平滑样条。它与Ridge / Lasso正则化类似,因为它惩罚了损失函数和平滑函数。您可以在“统计学习入门”一书中阅读更多内容。您可以在具有高可变性的数据集上实施这些方法,并注意其差异。

本文所需要的第三方库汇总:

本文来源于网络资源

人力有限,翻译部分简介内容,若有疑问及侵权,请后台留言!

回复“回归分析”即可获取英文原文

52brain,Connect Young Brains.

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180415G0DC6B00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券