什么是学习?
从一些资料中获取信息,提取经验,这个过程就是「学习」。回想一下自己的求学经历就知道了。
什么是机器学习?
让计算机从训练资料中获取信息,提取经验,建立模型,这个过程就是「机器学习」。
什么是监督学习?
学习的过程中,有人监督着,就是监督学习,监督者要告诉学习者什么是对、什么是错。
那对机器学习而言,人要告诉机器什么是对,什么是错,这反映到训练资料上就是训练样本要有标签,所以也可以这么说:训练数据集有标签就是监督学习。
监督学习的定义
监督式学习(英语:Supervised learning),是一种机器学习方法,可以从训练资料中学到或建立一个模型(函数 / learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
其中,「预期输出」就是常说的样本的标签。
如何理解监督学习?
举例说明。
假如你有一个房子面积与房价的数据集,画出图来是这样的:
横轴是面积,纵轴是总价。
如果你想测算面积为3000时,总价大概多少,该怎么办呢?
实际上,你会画出一条曲线,大概反应出房价随面积的变化趋势,这样,任意给定一个新的面积,你只要在这个直线上找到对应的点就可以了,因此,你的任务就是找到这条曲线。
你可能很随手就画出这条曲线了,但你肯定对你画出的结果不自信。为什么?因为你随便找个人再画一条,他很可能画的跟你的不一样,那你们怎么评判谁画的更好一些呢?
这就需要加些约束了,我们规定:只能画直线。
有了这个约束,就好评判了。用你的直线来测算的话,数据集中的实际房价与你测算的结果越接近约好。
于是,你的目标变成了找到这条直线。
这样,你就需要不断地去尝试,改变直线的斜率、截距,知道找到那条能让实际房价与测算房间差值最小的那条。
这条直线就是上边所说的「模型」,对于新的样本,我们就可以带入到这个模型中进行计算,给出结果。
重点来了!
在这个过程中,既然要比较测算值与实际值的差值,就需要知道实际值才行,这样才能不断的比对差值变化,做出调整。
也就是,每换一条直线,都需要检查一下是不是距离你的优化目标更近了,而优化目标就是比较测算值与真实值的差别,所以需要知道「真实值」。
这种给定真实值,让模型不断地贴近真实值,就是所谓的「监督学习」。
从监督学习的定义中我们知道,房价预测模型的输出是连续的,也就是你给任意一个房子的面积,都可以给出预测值,这种模型称之为「回归模型」。
另外一种监督学习模型是「分类模型」,也就是模型的输出值是离散的,是有限个的。例如,邮件分类问题,我们会建立模型,用于判断新邮件是否是垃圾邮件,这个模型的输出值要么是「是」,要买是「否」,后者再多一些选项:「可能是」、「不确定」等,但不管怎杨,都只有有限个值。
关注公众号,获取更多内容~
领取专属 10元无门槛券
私享最新 技术干货