福利 | 跟我一起学《图解机器学习》

本文节选自日本理化学研究所先进智能研究中心主任杉山将的《图解机器学习》的第一章。 如果喜欢这本书,请在评论区留言,说出你目前在机器学习方面所遇到的问题,评论点赞前五名的用户可获得本书。

1 什么是机器学习

近些年来,得益于互联网的普及,我们可以非常轻松地获取大量文本、音乐、图片、视频等各种各样的数据。机器学习,就是让计算机具有像人一样的学习能力的技术,是从堆积如山的数据(也称为大数据(中寻找出有用知识的数据挖掘技术。通过运用机器学习技术,从视频数据库中寻找出自己喜欢的视频资料,或者根据用户的购买记录向用户推荐其他相关产品等成为了现实(图1.1)。

本章将从宏观角度对什么是机器学习做相应的介绍,并对机器学习的基本概念进行说明。

1.1 学习的种类

计算机的学习,根据所处理的数据种类的不同,可以分为监督学习、无监督学习和强化学习等几种类型。监督学习,是指有求知欲的学生从老师那里获取知识、信息,老师提供对错指示、告知最终答案的学习过程(图1.2)。

在机器学习里,学生对应于计算机,老师则对应于周围的环境。根据在学习过程中所获得的经验、技能,对没有学习过的问题也可以做出正确解答,使计算机获得这种泛化能力,是监督学习的最终目标。监督学习,在手写文字识别、声音处理、图像处理、垃圾邮件分类与拦截、网页检索、基因诊断以及股票预测等各个方面,都有着广泛的应用。这一类机器学习的典型任务包括:预测数值型数据的回归、预测分类标签的分类、预测顺序的排序等。

无监督学习,是指在没有老师的情况下,学生自学的过程(图1.3)。在机器学习里,基本上都是计算机在互联网中自动收集信息,并从中获取有用信息。无监督学习不仅仅局限于解决像监督学习那样的有明确答案的问题,因此,它的学习目标可以不必十分明确。无监督学习在人造卫星故障诊断、视频分析、社交网站解析和声音信号解析等方面大显身手的同时,在数据可视化以及作为监督学习方法的前处理工具方面,也有广泛的应用。这一类机器学习的典型任务有聚类、异常检测等。

强化学习,与监督学习类似,也以使计算机获得对没有学习过的问题做出正确解答的泛化能力为目标,但是在学习过程中,不设置老师提示对错、告知最终答案的环节。然而,如果真的在学习过程中不能从周围环境中获得任何信息的话,强化学习就变成无监督学习了。强化学习,是指在没有老师提示的情况下,自己对预测的结果进行评估的方法。通过这样的自我评估,学生为了获得老师的最高嘉奖而不断地进行学习(图1.4)。

婴幼儿往往会为了获得父母的表扬去做事情,因此,强化学习被认为是人类主要的学习模式之一。强化学习,在机器人的自动控制、计算机游戏中的人工智能、市场战略的最优化等方面均有广泛应用。在强化学习中经常会用到回归、分类、聚类和降维等各种各样的机器学习算法。

1.2 机器学习任务的例子

有关增强学习的详细解说,读者朋友可以参阅文献[5]。本节将对监督学习和无监督学习中典型的任务,例如回归、分类、异常检测、聚类和降维等做一一介绍。

回归,是指把实函数在样本点附近加以近似的有监督的函数近似问题A(图1.5)。这里,我们来考虑一下以d次方的实数向量x作为输入,实数值y 作为输出的函数y=f(x)的学习问题。在监督学习里,这里的真实函数关系f 是未知的,作为训练集的输入输出样本{(xi,yi)}ni=1 是已知的。但是,一般情况下,在输出样本yi 的真实值f(xi) 中经常会观测到噪声。通过这样的设定,输入样本xi 就是学生向老师请教的问题,输出样本yi 是老师对学生的解答,输出样本中包含的噪声则与老师的教学错误或学生的理解错误相对应。老师的知识(无论什么样的问题,都可以做出正确的解答)与真实的函数f 相对应,使学生获得这个函数就是监督学习的最终目标。如果以­ f 来表示学生通过学习而获得的函数,那么学生对没有学习过的问题也可以做出正确解答的泛化能力的大小,就可以通过比较函数f和­ f 的相似性来进行分析。

(回归是对一个或多个自变量和因变量之间的关系进行建模、求解的一种统计方法。——译者注)

分类,是指对于指定的模式进行识别的有监督的模型识别问题(图1.6)。在这里,以d 次方的实数向量x作为输入样本,而所有的输入样本,可以被划分为c 个类别的问题来进行说明。作为训练集的输入输出样本{(xi, yi)}ni=1 是已知的。但是,分类问题中的输出样本yi,并不是具体的实数,而是分别代表类别1,2, . . . , c。在这样的任务里,得到输出类别1,2, . . . , c的函数y=f(x)的过程,就是机器学习的过程。因此,分类问题也可以像回归问题那样,被看作是函数近似问题。然而,在分类问题中,并不存在类别1 比类别3 更接近于类别2 这样的说法。分类问题只是单纯地对样本应该属于哪一个类别进行预测,并根据预测准确与否来衡量泛化误差,这一点与回归是不同的。

异常检测,是指寻找输入样本{xi}ni=1 中所包含的异常数据的问题。在已知正常数据与异常数据的例子的情况下,其与有监督的分类问题是相同的。但是,一般情况下,在异常检测任务中,对于什么样的数据是异常的,什么样的数据是正常的,在事先是未知的。在这样的无监督的异常检测问题中,一般采用密度估计的方法,把靠近密度中心的数据作为正常的数据,把偏离密度中心的数据作为异常的数据(图1.7)。聚类,与分类问题相同,也是模式识别问题,但是属于无监督学习的一种(图1.8)。即只给出输入样本{xi}ni=1,然后判断各个样本分别属于1, 2, . . ., c中的哪个簇A。隶属于相同簇的样本之间具有相似的性质,不同簇的样本之间具有不同的性质。在聚类问题中,如何准确地计算样本之间的相似度是很重要的课题。

(聚类问题中经常以“簇”代替“类别”。——译者注)

降维,是指从高维度数据中提取关键信息,将其转换为易于计算的低维度问题进而求解的方法(图1.9)。具体来说,当输入样本{xi}ni=1的维数d 非常大的时候,可以把样本转换为较低维度的样本{zi}ni=1。线性降维的情况下,可以使用横向量T 将其变换为zi=Txi。降维,根据数据种类的不同,可以分为监督学习和无监督学习两种。作为训练集的输入输出样本{(xi,yi)}ni=1 是已知的时候,属于监督学习,可以把样本转换为较低维度的样本{zi}ni=1,从而获得较高的泛化能力。与之相对,如果只有输入样本{xi}ni=1是已知的话,就属于无监督学习,在转换为较低维度的样本{zi}ni=1之后,应该保持原始输入样本{xi}ni=1的数据分布性质,以及数据间的近邻关系不发生变化。

1.3 机器学习的方法

机器学习有多种不同的流派。本节中,以对模式x的类别y 进行预测的分类问题为例,对机器学习中的主要流派,即产生式分类和判别式分类,以及频率派和贝叶斯派的基本方法加以介绍。

  • 1.3.1 生成的分类和识别的分类

在已知模式x的时候,如果能求得使分类类别y 的条件概率p(y|x)达到最大值的类别­y 的话,就可以进行模式识别了。

在这里,“argmax”是取得最大值时的参数的意思。所以,maxy p(y|x)是指当y 取特定值时p(y|x)的最大值,而argmaxy p(y|x)是指当p(y|x)取最大值时对应的y 的值(图1.10)。在模式识别里,条件概率p(y|x)通常也称为后验概率。上面的­

读作y 翰特。在基于统计分析的机器学习中,预测结果一般以字母加符

来表示,本书也采用这样的方法。应用训练集直接对后验概率p(y|x)进行学习的过程,称为判别式分类。另外,还可以把后验概率p(y|x)表示为y的函数。

通过上式,我们可以发现模式x和类别y的联合概率p(x, y)与后验概率p(y|x) 是成比例的。正因为有这样的关系,我们可以通过使联合概率p(x, y)达到最大值的方法,来得到使后验概率p(y|x)达到最大值的类别­

在模式识别里,联合概率p(x, y)也称为数据生成概率,通过预测数据生成概率p(x, y)来进行模式识别的分类方法,称为生成的分类[11]。支持向量机分类器的发明者、著名的数学家弗拉基米尔·万普尼克 A在其著作[15]中提到:

在实际问题中,信息往往是有限的。在解决一个感兴趣的问题时,不要把解决一个更一般的问题作为一个中间步骤。要试图得到所需要的答案,而不是更一般的答案。很可能你拥有足够的信息来很好地解决一个感兴趣的特定问题,但却没有足够的信息来解决一个一般性的问题。

为什么这么说呢?这是因为,即使手头的信息量不足以解决一般性问题,但对于解决特定问题,很可能是足够的。如果数据生成概率p(x, y)是已知的,

那么,从上式就可以推出后验概率p(y|x)。然而,如果后验概率p(y|x)是已知的,却不能由此推导出数据生成概率p(x, y)(图1.11)。因此,比起计算后验概率p(y|x),可以说数据生成概率p(x, y)的计算是一般性(即求解更困难)的问题。进行模式识别时,只需计算出后验概率p(y|x)就足够了。但在生成的分类中,则要计算数据生成概率p(x, y)这个一般性的问题。如果遵循上述的弗拉基米尔·万普尼克的原理,识别的分类就是比生成的分类更好的机器学习方法。

另一方面,在很多实际问题中,经常可以获得有关数据生成概率p(x, y)的一些先验知识。例如,在声音识别过程中,可以通过事先研究人类的喉咙构造或发声机理,获得很多有关数据生成概率p(x, y)的先验知识[4]。

像这样,在可以事先获得数据生成概率p(x,y)的先验知识的情况下,生成的分类就是比识别的分类更好的机器学习方法,即与上段论述是正好相反的。

  • 1.3.2  统计概率和朴素贝叶斯

本小节中,我们以包含参数θ的模型q(x, y; θ)为例,对计算数据生成概率p(x, y) 的问题进行说明。

在统计概率的机器学习方法中,将模式θ作为决定论的变量,使用手头的训练样本

对模式θ 进行学习。例如,在最大似然估计算法中,一般对生成训练集D的最容易的方法所对应的模式θ进行学习。

在统计概率方法中,如何由训练集D得到高精度的模式θ是主要的研究课题。

与之相对,在朴素贝叶斯方法中,将模式θ作为概率变量,对其先验概率p(θ­)加以考虑,计算与训练集D相对应的后验概率p(­θ|D)。通过运用贝叶斯定理,就可以使用先验概率p(­θ) 来求解后验概率p(­θ |D),如下所示:

如果先验概率p(θ­)是已知的话,后验概率p(­θ|D)就可以按照上式进行非常精确的计算。因此,在朴素贝叶斯算法中,如何精确地计算后验概率是一个主要的研究课题。

本书将主要讲解基于频率派的识别式机器学习算法,并对其中各个实用的算法及未来的发展方向做相应的介绍。关于产生式机器学习算法,读者朋友可以参考文献[11] 等;关于朴素贝叶斯派的机器学习算法,可以参考文献[10]等进行更加深入的学习。

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2017-08-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

常用机器学习算法优缺点及其应用领域

决策树 ? 决策树优点 1、决策树易于理解和解释,可以可视化分析,容易提取出规则。 2、可以同时处理标称型和数值型数据。 3、测试数据集时,运行速度比较快。 ...

33860
来自专栏iOSDevLog

机器学习概述与算法介绍

20550
来自专栏人人都是极客

机器学习套路就这三个

想要成为合格的,或者更进一步成为优秀的人工智能工程师或数据科学家,机器学习的各种基础知识是必不可少的。然而,机器学习领域浩如烟海,各类教材和入门课程层出不穷。特...

403160
来自专栏机器之心

盘点 | 机器学习入门算法:从线性模型到神经网络

选自Dataconomy 机器之心编译 参与:王宇欣、吴攀、蒋思源 近段时间以来,我们频频听到「机器学习(machine learning)」这个词(通常在预测...

381120
来自专栏AI科技评论

深度 | 谷歌的新CNN特征可视化方法,构造出一个华丽繁复的新世界

AI 科技评论按:深度神经网络解释性不好的问题一直是所有研究人员和商业应用方案上方悬着的一团乌云,现代CNN网络固然有强大的特征抽取能力,但没有完善的理论可以描...

37980
来自专栏机器之心

资源 | 吴恩达deeplearning.ai第四课学习心得:卷积神经网络与计算机视觉

选自Medium 机器之心编译 参与:路雪、李泽南 不久前,Coursera 上放出了吴恩达 deeplearning.ai 的第四门课程《卷积神经网络》。本文...

35770
来自专栏技术翻译

最受欢迎的十大AI模型

虽然人工智能和机器学习为企业提供了充分的可能性来改善其运营并最大化其收入,但却没有“免费午餐”这样的东西。

1.4K40
来自专栏企鹅号快讯

如何利用深度学习识别千万张图片?

首先我们来谈一下什么是卷积神经网络,相信在深度学习中这是最重要的概念,首先你可以把卷积想象成一种混合信息的手段。想象一下装满信息的两个桶,我们把它们倒入一个桶中...

26850
来自专栏机器之心

学界 | 通过Crowd Layer,利用众包标注数据集进行深度学习

选自arXiv 机器之心编译 参与:刘晓坤、路雪 本文通过在深度神经网络中引入一种新型众包层(crowd layer),通过反向传播方式,直接利用噪声标签实现端...

48360
来自专栏云时之间

什么是检验神经网络?

各位小伙伴们大家好,今天让我们聊聊在做好了自己的神经网络以后来如何评价自己的神经网络的并且如何从评价当中如何改进我们的神经网络。 其实评价神经网络的方法和评价其...

37980

扫码关注云+社区

领取腾讯云代金券