抱歉,你查看的文章不存在

2-机器学习启蒙- 回归模型预测房价

2- 回归模型预测房价

房子特征: 房子多大,有几个房间 房子观测量:房价

运用回归进行分类。邮件特征判断是否是垃圾邮件。

预测房价对于中国很适合。不知道房子值多少钱,通过查看邻居房子的销售情况。

记录周围区域的每一间房子的样子和面积等特征值。

mark

每一个点代表房子售价。

术语: x - 特征,协变量 预测变量(自变量) y - 观测或反映(因变量)

  • 通过相似的房子预测你的房子

mark

找到与你房子面积大小差不多的房子,看看他们的价格。一般很少能找到一模一样大的

mark

找到附近面积区间内和我房子一样大的。可是只有两个在区间之内的。

别的观察值也需要被采纳进我们的预测中。

应用线性回归模型

通过数据拟合一条线来预测。

mark

线:y=kx+b w0 和 w1 斜率决定。w1 称为x上的权重或回归系数。

mark

不同的参数w可以拟合出很多条线?可是哪一条才是我们想要的正确的线呢。

定义选择给定一条线的成本: 与数据拟合相关的非常常见的成本叫做残差平方和(RSS)

定义:

模型预测的结果和实际结果有多远。残差就是实际观测和预测的差异。 每一个观测价格减去预测价格之后平方并累计求和。

mark

选择残差和最少的一条线就是我们最终想要拟合的模型。

截距与斜率。有非常成熟的算法找到我们想要的两个参数

mark

房屋价格的最好猜测就是将房屋面积进行带入。

mark

加入更高阶的因素。

会不会它并不是一条直线呢。如果用二次函数怎么样?

mark

mark

一次项,二次项,截距。虽然是一个二次函数。但是仍然叫做线性回归。

因为我们把x的平方认为是另一个回归量。但是w仍然是w没有变。

我们在寻找残差平方和最小的时候。我们需要寻找一个最佳的三个参数的组合。

用更高阶的多项式效果如何?

mark

十三次的曲线确实rss降到了最低。曲线通过了所有点。残差均为0.

mark

通过这个曲线预测出的价格过低,违背常理。这是一种过拟合的现象。

通过训练和测试分离来评估过拟合。

想要拟合模型,但是又不能使模型太过于局限于我们已有的数据集。 这样的模型不能很好的泛化,无法在新观测到的数据集上进行正确的预测。

虽然很小化了Rss但是预测效果却很差。

如何选择模型阶数或复杂度

想要得到好的预测,但要观察到未来。

模拟预测

  • 移除一部分房子
  • 通过剩余的房屋数据拟合我们的模型
  • 预测剩下的房子

好的效果是在我有足够多的数据来拟合的前提下。

训练 / 测试分离

术语:

  • 训练集
  • 测试集(真实预测房屋的替代品)

训练误差

mark

蓝色的点代表我们在训练集中的房屋。

mark

依然通过残差和的计算找出我们在训练集的误差和。最小化以选择w。

测试误差

在灰色的实际测试集房屋上,依然采用残差平方和进行计算。

mark

训练测试曲线

那么我们可以考虑考虑我们的测试误差和训练误差之间是否存在一定的函数关系。

mark

如我们采用了13次多项式进行拟合,随着模型复杂度的上升,训练误差会随着越来越小。

w帽子就是我们想要搜索出的最优的解决参数

测试集中的数据:某一个点上我们的测试误差很可能会上升。

加入新的特征

不仅仅是看屋子的面积和价格的关系而是加入更多的特征。

mark

不再使用一条直线而是使用一个平面来进行拟合。

w0表示截距,平面在y轴上的位置。w1乘以房屋面积 w2乘以澡堂的数量

应该选择多少特征?

mark

其他回归示例

  • 学完这门课之后的薪水。

mark

薪水的多少依赖于几个特征。预测y帽子的时候,估计模型的参数。

mark

权值。通过其他学习本门课的学生的数据得到。

  • 股票的预测

mark

  • 微博流行度

多少人会转发你的微博?

mark

  • 智能房屋

mark

回归总结

机器学习流水线

mark

数据喂给机器学习的方法然后产生智能应用。

mark

训练集 特征提取: 选取一部分特征。得到模型,房屋价格的预测值y冒。

参数w冒。回归系数,权重。将房屋的真实价格与预测价格进行比较产生了质量评估。

残差平方和。使用迭代的方式根据残差平方和的大小不断调整权重。

实际构建房屋售价模型

见ipython notebook 代码

构建房屋售价预测回归模型

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

有趣的Python

0 篇文章106 人订阅

相关文章

来自专栏PPV课数据科学社区

【干货】机器学习常见算法分类汇总

作者|王萌 转自|IT经理网 (www.ctocio.com) 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法...

2926
来自专栏企鹅号快讯

你所不能不知道的CNN

说起CNN,最初人们想到的都是某电视台,但等过几年,人们想起的多半是深度学习了。 应该说, CNN是这两年深度学习风暴的罪魁祸首, 自2012年, 正是它让打入...

4998
来自专栏IT派

学会这10种机器学习算法你才算入门

可以说,机器学习从业者都是个性迥异的。虽然其中一些人会说“我是X方面的专家,X可以在任何类型的数据上进行训练”,其中,X =某种算法;而其他一些人则是“能够在适...

1140
来自专栏目标检测和深度学习

「数据科学家」必备的10种机器学习算法

可以说,机器学习从业者都是个性迥异的。虽然其中一些人会说“我是X方面的专家,X可以在任何类型的数据上进行训练”,其中,X =某种算法;而其他一些人则是“能够在适...

2835
来自专栏AI2ML人工智能to机器学习

最小二乘法的4种求解

我们曾经在“一步一步走向锥规划 - LS”里面详细介绍了最小二乘法的由来和几何解释。 并且, 在“回归分析中的问题和修正的探讨”中谈到了经典最小二乘法OLS的局...

1212
来自专栏企鹅号快讯

人工智能AI(1)开篇:小白之学习计划

最近小拾君准备正式开始人工智能相关领域的系统性学习了,看了一些资料及书籍,给自己列个学习计划,分享给大家,与君共勉。后续,将按照本计划(3.1开始)包括但不限于...

3028
来自专栏Vamei实验室

概率论06 连续分布

在随机变量中,我提到了连续随机变量。相对于离散随机变量,连续随机变量可以在一个连续区间内取值。比如一个均匀分布,从0到1的区间内取值。一个区间内包含了无穷多个实...

2308
来自专栏机器学习算法与Python学习

综述 | 常用文本特征选择

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 作者:ACdreamers 链接:h...

3748
来自专栏AI科技评论

干货 | 论文笔记:第一人称视角视频中的行人轨迹预测

AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,得到了其指点和审核,AI 科技评论在此表示感谢。 视频中的人体动作分析是计算机视觉研...

5236
来自专栏社区的朋友们

基于 word2vec 和 CNN 的文本分类 :综述 & 实践

于词向量和卷积神经网络的文本分类方法不仅考虑了词语之间的相关性,而且还考虑了词语在文本中的相对位置,这无疑会提升在分类任务中的准确率。

11.5K4

扫码关注云+社区

领取腾讯云代金券