什么是监督学习

什么是学习?

从一些资料中获取信息,提取经验,这个过程就是「学习」。回想一下自己的求学经历就知道了。

什么是机器学习?

让计算机从训练资料中获取信息,提取经验,建立模型,这个过程就是「机器学习」。

什么是监督学习?

学习的过程中,有人监督着,就是监督学习,监督者要告诉学习者什么是对、什么是错。

那对机器学习而言,人要告诉机器什么是对,什么是错,这反映到训练资料上就是训练样本要有标签,所以也可以这么说:训练数据集有标签就是监督学习。

监督学习的定义

监督式学习(英语:Supervised learning),是一种机器学习方法,可以从训练资料中学到或建立一个模型(函数 / learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

其中,「预期输出」就是常说的样本的标签。

如何理解监督学习?

举例说明。

假如你有一个房子面积与房价的数据集,画出图来是这样的:

横轴是面积,纵轴是总价。

如果你想测算面积为3000时,总价大概多少,该怎么办呢?

实际上,你会画出一条曲线,大概反应出房价随面积的变化趋势,这样,任意给定一个新的面积,你只要在这个直线上找到对应的点就可以了,因此,你的任务就是找到这条曲线。

你可能很随手就画出这条曲线了,但你肯定对你画出的结果不自信。为什么?因为你随便找个人再画一条,他很可能画的跟你的不一样,那你们怎么评判谁画的更好一些呢?

这就需要加些约束了,我们规定:只能画直线。

有了这个约束,就好评判了。用你的直线来测算的话,数据集中的实际房价与你测算的结果越接近约好。

于是,你的目标变成了找到这条直线。

这样,你就需要不断地去尝试,改变直线的斜率、截距,知道找到那条能让实际房价与测算房间差值最小的那条。

这条直线就是上边所说的「模型」,对于新的样本,我们就可以带入到这个模型中进行计算,给出结果。

重点来了!

在这个过程中,既然要比较测算值与实际值的差值,就需要知道实际值才行,这样才能不断的比对差值变化,做出调整。

也就是,每换一条直线,都需要检查一下是不是距离你的优化目标更近了,而优化目标就是比较测算值与真实值的差别,所以需要知道「真实值」。

这种给定真实值,让模型不断地贴近真实值,就是所谓的「监督学习」。

从监督学习的定义中我们知道,房价预测模型的输出是连续的,也就是你给任意一个房子的面积,都可以给出预测值,这种模型称之为「回归模型」。

另外一种监督学习模型是「分类模型」,也就是模型的输出值是离散的,是有限个的。例如,邮件分类问题,我们会建立模型,用于判断新邮件是否是垃圾邮件,这个模型的输出值要么是「是」,要买是「否」,后者再多一些选项:「可能是」、「不确定」等,但不管怎杨,都只有有限个值。

关注公众号,获取更多内容~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180316G07ZKQ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券