首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

简明数据科学Ⅸ:回归模型的相互作用和局限性

简明数据科学系列

简明数据科学系列是TalkingData 研发团队张永超翻译的系列文章,该文章将介绍数据科学中的基本原理,一般过程和问题类型。让初学者对数据科学有一个基本的了解。

此篇文章结束后,简明数据科学系列算作一个阶段性的结束。虽然数据科学不止这些内容,但是“温故而知新”,建议回顾一下之前的内容并加以练习,以加深相关概念和内容的理解。

在之前的文章中,我们讨论了回归模型,费尔南多已经建立了一个多元回归模型,该模型的具体形式如下:

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

该模型通过发动机大小、马力和宽度来预测或者估算汽车的价格。回想之前的内容,多变量回归模型是假定了预测因子是相互独立的,即发动机大小、马力和宽度是不相关的,独立的。但是在实际中,变量之间相互独立的情况很少,如果马力,发动机大小和宽度之间存在关系,该怎么办?这些关系可以模拟吗?

在本篇内容中,将解决这些问题,并解释相互作用的相关概念。

概述

预测因子之间相互独立意味着如果一个预测因子发生了变化,那么目标也会产生影响。这种影响与其他预测因子的存在和变化无关,目标和预测因子之间的关系是相加的、线性的。例如费尔南多的方程式:

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

如果以发动机大小为标准,那么改变一个单位的发动机大小,汽车的价格变化87.34。而这种解释并没有考虑汽车的马力和宽度与发动机大小之间的联系。

难道汽车越来越大,发动机越来越大吗?

根据上述,费尔南多创建了一个全新的模型,其表达形式如下:

价格 = β0 + β1.发动机大小 + β2.马力 + β3.宽度 + β4.(发动机大小.宽度)

第三个预测因子捕获发动机大小和车辆宽度之间的关系,这第三个预测因子被称为交互项。其中 β1.发动机大小 + β3.宽度 称为主要项。发动机大小x宽度为交互项。

上述等式重新组合后,形式为:

价格 = β0 + (β1 + β4. 宽度) 发动机大小 + β2. 马力 + β3. 宽度

现在,如果宽度增加1个单位,β4可以解释为对发动机尺寸的影响。

模型构建

费尔南多根据上述理论重新构建了模型,在统计软件中得到如下的参数:

该等式变成:

价格 = 51331.363 – 1099.953 x 发动机大小 + 45.896 x 马力 – 744.953 x 宽度 + 17.257 x 发动机大小:宽度

价格 = 51331.363 – (1099.953 – 17.257 x 宽度)发动机大小 + 45.896 x 马力 – 744.953 x 宽度

让我们来解释这些系数:

发动机的大小、马力和发动机的大小:宽度(交互项)都很重要。

汽车的宽度并不重要。

将发动机尺寸增加1个单位可将价格降低1099.953美元。

马力提高1个单位,价格上涨45.8美元。

交互项很重要,这意味着真正的关系不是叠加的。

将发动机尺寸增加1个单位也会使价格提高(1099.953 - 17.257 x宽度)。

测试数据的调整R平方为0.8358 =>该模型解释了83.5%的变化。

请注意,汽车的宽度并不重要。那么将它包含在模型中是否有意义?这里有一个被称为分层原则的原则:

分层原则:当模型中包含交互时,主要效果也需要包含在模型中。即使个体变量在模型中不显着,也需要包括主效应。

费尔南多现在运行该模型并测试测试数据的模型性能。

该模型在测试数据集上表现良好。测试数据的调整R平方为0.8175622 =>该模型解释了位置数据变化的81.75%。

费尔南多现在有一个最佳模型来预测汽车价格并购买汽车。

回归模型的局限性

回归模型是数据科学的主力,是数据科学家工具箱中的一个令人惊叹的工具。当被有效使用时,他们在解决大量现实生活中的数据科学问题方面非常出色。然而,他们确实有其局限性。简要解释回归模型的三个局限性:

非线性关系:线性回归模型假定变量之间是线性的,如果关系不是线性的,那么线性回归模型可能无法按预期执行。

实用提示:使用像日志这样的转换将非线性关系转换为线性关系

多重共线性:共线性是指两个预测变量彼此相关的情况。当有很多预测因子和这些预测因子相互关联时,它被称为多重共线性。如果预测因子彼此相关,则特定预测因子对目标的影响很难被隔离。

实用提示:通过仔细选择预测变量来简化模型。限制选择太多相关的预测变量。或者,使用创建新的不相关变量的主要组件等技术。

异常值的影响:异常值是远离模型预测的值的一个点。如果目标变量中有异常值,模型将被拉伸以适应它们。针对少数离群点进行太多的模型调整。这使得模型倾向于异常值。对于大多数人来说,模型的拟合没有任何好处。

实用提示:删除用于建模的异常点。如果目标中存在太多异常值,则可能需要多个模型。

总结

至此,简明数据科学系列将告一段落,此阶段的主要目的是了解数据科学的基础,以及线性回归模型的从0到1。最后讨论了现行回归模型的局限性,在实际应用的过程中,可能需要进行数据的统计分析来分析数据以及数据之间的关系,如果是线性的,即可直接使用线性回归模型,若非线性,可能要使用其他方法,或者想法设防将非线性转换为线性关系后使用线性回归方法,需要根据实际情况而定。

小编说:恭喜简明数据科学系列通关!今天分享给大家的是,TalkingData 人本实验室在2018 “ 设计中国 丹麦特展” 的展览作品介绍--用大规模移动数据透视北京这座城。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181204B1E2S700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券