首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何选择有噪声(散乱)数据的回归算法?

如何选择有噪声(散乱)数据的回归算法?
EN

Stack Overflow用户
提问于 2015-12-26 20:01:23
回答 1查看 1.6K关注 0票数 1

我要用多个变量进行回归分析。在我的数据中,我有n =23个特性和m = 13000训练示例。以下是我的培训数据(房屋面积与价格对比):

关于这个情节有13000个训练例子。正如你所看到的,它是相对嘈杂的数据。我的问题是,在我的情况下,哪种回归算法更合适、更合理。我的意思是,使用简单的线性回归算法还是一些非线性回归算法更符合逻辑?

更清楚的是,我提供了一些例子。

以下是一些不相关的线性回归拟合示例:

一些不相关的非线性回归拟合例子:

现在,我为我的数据提供了一些假设回归线:

AFAIK原始线性回归对我的数据会产生很高的误差代价,因为它是非常嘈杂和分散的数据。另一方面,没有明显的非线性模式(例如正弦)。在我的案例(房价数据)中,为了得到多少合适的房价预测,什么样的回归算法会更合理,为什么这个算法(线性还是非线性)更合理?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-12-27 00:37:01

使用非线性算法可以减少训练集上的误差,因为您将使用一条更适合您的数据的曲线。然而,它可能导致过度拟合

为了避免这种情况,一个好的做法是同时在培训数据和测试数据上绘制错误(成本函数)。在模型中增加更多的复杂性将减少训练数据上的错误,但在某一时刻,它会使您的测试数据更高。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34474767

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档