我要用多个变量进行回归分析。在我的数据中,我有n =23个特性和m = 13000训练示例。以下是我的培训数据(房屋面积与价格对比):
关于这个情节有13000个训练例子。正如你所看到的,它是相对嘈杂的数据。我的问题是,在我的情况下,哪种回归算法更合适、更合理。我的意思是,使用简单的线性回归算法还是一些非线性回归算法更符合逻辑?
更清楚的是,我提供了一些例子。
以下是一些不相关的线性回归拟合示例:
一些不相关的非线性回归拟合例子:
现在,我为我的数据提供了一些假设回归线:
AFAIK原始线性回归对我的数据会产生很高的误差代价,因为它是非常嘈杂和分散的数据。另一方面,没有明显的非线性模式(例如正弦)。在我的案例(房价数据)中,为了得到多少合适的房价预测,什么样的回归算法会更合理,为什么这个算法(线性还是非线性)更合理?
发布于 2015-12-27 00:37:01
使用非线性算法可以减少训练集上的误差,因为您将使用一条更适合您的数据的曲线。然而,它可能导致过度拟合。
为了避免这种情况,一个好的做法是同时在培训数据和测试数据上绘制错误(成本函数)。在模型中增加更多的复杂性将减少训练数据上的错误,但在某一时刻,它会使您的测试数据更高。
https://stackoverflow.com/questions/34474767
复制相似问题