福利 | 跟我一起学《图解机器学习》

AI科技大本营

发布于 2018-04-26 15:00:20

6090

发布于 2018-04-26 15:00:20

文章被收录于专栏：AI科技大本营的专栏

本文节选自日本理化学研究所先进智能研究中心主任杉山将的《图解机器学习》的第一章。如果喜欢这本书，请在评论区留言，说出你目前在机器学习方面所遇到的问题，评论点赞前五名的用户可获得本书。

1 什么是机器学习

近些年来，得益于互联网的普及，我们可以非常轻松地获取大量文本、音乐、图片、视频等各种各样的数据。机器学习，就是让计算机具有像人一样的学习能力的技术，是从堆积如山的数据(也称为大数据(中寻找出有用知识的数据挖掘技术。通过运用机器学习技术，从视频数据库中寻找出自己喜欢的视频资料，或者根据用户的购买记录向用户推荐其他相关产品等成为了现实(图1.1)。

本章将从宏观角度对什么是机器学习做相应的介绍，并对机器学习的基本概念进行说明。

1.1 学习的种类

计算机的学习，根据所处理的数据种类的不同，可以分为监督学习、无监督学习和强化学习等几种类型。监督学习，是指有求知欲的学生从老师那里获取知识、信息，老师提供对错指示、告知最终答案的学习过程(图1.2)。

在机器学习里，学生对应于计算机，老师则对应于周围的环境。根据在学习过程中所获得的经验、技能，对没有学习过的问题也可以做出正确解答，使计算机获得这种泛化能力，是监督学习的最终目标。监督学习，在手写文字识别、声音处理、图像处理、垃圾邮件分类与拦截、网页检索、基因诊断以及股票预测等各个方面，都有着广泛的应用。这一类机器学习的典型任务包括：预测数值型数据的回归、预测分类标签的分类、预测顺序的排序等。

无监督学习，是指在没有老师的情况下，学生自学的过程(图1.3)。在机器学习里，基本上都是计算机在互联网中自动收集信息，并从中获取有用信息。无监督学习不仅仅局限于解决像监督学习那样的有明确答案的问题，因此，它的学习目标可以不必十分明确。无监督学习在人造卫星故障诊断、视频分析、社交网站解析和声音信号解析等方面大显身手的同时，在数据可视化以及作为监督学习方法的前处理工具方面，也有广泛的应用。这一类机器学习的典型任务有聚类、异常检测等。

强化学习，与监督学习类似，也以使计算机获得对没有学习过的问题做出正确解答的泛化能力为目标，但是在学习过程中，不设置老师提示对错、告知最终答案的环节。然而，如果真的在学习过程中不能从周围环境中获得任何信息的话，强化学习就变成无监督学习了。强化学习，是指在没有老师提示的情况下，自己对预测的结果进行评估的方法。通过这样的自我评估，学生为了获得老师的最高嘉奖而不断地进行学习(图1.4)。

婴幼儿往往会为了获得父母的表扬去做事情，因此，强化学习被认为是人类主要的学习模式之一。强化学习，在机器人的自动控制、计算机游戏中的人工智能、市场战略的最优化等方面均有广泛应用。在强化学习中经常会用到回归、分类、聚类和降维等各种各样的机器学习算法。

1.2 机器学习任务的例子

有关增强学习的详细解说，读者朋友可以参阅文献[5]。本节将对监督学习和无监督学习中典型的任务，例如回归、分类、异常检测、聚类和降维等做一一介绍。

回归，是指把实函数在样本点附近加以近似的有监督的函数近似问题A(图1.5)。这里，我们来考虑一下以d次方的实数向量x作为输入，实数值y 作为输出的函数y=f(x)的学习问题。在监督学习里，这里的真实函数关系f 是未知的，作为训练集的输入输出样本{(xi,yi)}ni=1 是已知的。但是，一般情况下，在输出样本yi 的真实值f(xi) 中经常会观测到噪声。通过这样的设定，输入样本xi 就是学生向老师请教的问题，输出样本yi 是老师对学生的解答，输出样本中包含的噪声则与老师的教学错误或学生的理解错误相对应。老师的知识(无论什么样的问题，都可以做出正确的解答)与真实的函数f 相对应，使学生获得这个函数就是监督学习的最终目标。如果以 f 来表示学生通过学习而获得的函数，那么学生对没有学习过的问题也可以做出正确解答的泛化能力的大小，就可以通过比较函数f和 f 的相似性来进行分析。

(回归是对一个或多个自变量和因变量之间的关系进行建模、求解的一种统计方法。——译者注)

分类，是指对于指定的模式进行识别的有监督的模型识别问题(图1.6)。在这里，以d 次方的实数向量x作为输入样本，而所有的输入样本，可以被划分为c 个类别的问题来进行说明。作为训练集的输入输出样本{(xi, yi)}ni=1 是已知的。但是，分类问题中的输出样本yi，并不是具体的实数，而是分别代表类别1,2, . . . , c。在这样的任务里，得到输出类别1,2, . . . , c的函数y=f(x)的过程，就是机器学习的过程。因此，分类问题也可以像回归问题那样，被看作是函数近似问题。然而，在分类问题中，并不存在类别1 比类别3 更接近于类别2 这样的说法。分类问题只是单纯地对样本应该属于哪一个类别进行预测，并根据预测准确与否来衡量泛化误差，这一点与回归是不同的。

异常检测，是指寻找输入样本{xi}ni=1 中所包含的异常数据的问题。在已知正常数据与异常数据的例子的情况下，其与有监督的分类问题是相同的。但是，一般情况下，在异常检测任务中，对于什么样的数据是异常的，什么样的数据是正常的，在事先是未知的。在这样的无监督的异常检测问题中，一般采用密度估计的方法，把靠近密度中心的数据作为正常的数据，把偏离密度中心的数据作为异常的数据(图1.7)。聚类，与分类问题相同，也是模式识别问题，但是属于无监督学习的一种(图1.8)。即只给出输入样本{xi}ni=1，然后判断各个样本分别属于1, 2, . . ., c中的哪个簇A。隶属于相同簇的样本之间具有相似的性质，不同簇的样本之间具有不同的性质。在聚类问题中，如何准确地计算样本之间的相似度是很重要的课题。

(聚类问题中经常以“簇”代替“类别”。——译者注)

降维，是指从高维度数据中提取关键信息，将其转换为易于计算的低维度问题进而求解的方法(图1.9)。具体来说，当输入样本{xi}ni=1的维数d 非常大的时候，可以把样本转换为较低维度的样本{zi}ni=1。线性降维的情况下，可以使用横向量T 将其变换为zi=Txi。降维，根据数据种类的不同，可以分为监督学习和无监督学习两种。作为训练集的输入输出样本{(xi,yi)}ni=1 是已知的时候，属于监督学习，可以把样本转换为较低维度的样本{zi}ni=1，从而获得较高的泛化能力。与之相对，如果只有输入样本{xi}ni=1是已知的话，就属于无监督学习，在转换为较低维度的样本{zi}ni=1之后，应该保持原始输入样本{xi}ni=1的数据分布性质，以及数据间的近邻关系不发生变化。

1.3 机器学习的方法

机器学习有多种不同的流派。本节中，以对模式x的类别y 进行预测的分类问题为例，对机器学习中的主要流派，即产生式分类和判别式分类，以及频率派和贝叶斯派的基本方法加以介绍。

1.3.1　生成的分类和识别的分类

在已知模式x的时候，如果能求得使分类类别y 的条件概率p(y|x)达到最大值的类别y 的话，就可以进行模式识别了。

读作y 翰特。在基于统计分析的机器学习中，预测结果一般以字母加符

来表示，本书也采用这样的方法。应用训练集直接对后验概率p(y|x)进行学习的过程，称为判别式分类。另外，还可以把后验概率p(y|x)表示为y的函数。

通过上式，我们可以发现模式x和类别y的联合概率p(x, y)与后验概率p(y|x) 是成比例的。正因为有这样的关系，我们可以通过使联合概率p(x, y)达到最大值的方法，来得到使后验概率p(y|x)达到最大值的类别

。

在模式识别里，联合概率p(x, y)也称为数据生成概率，通过预测数据生成概率p(x, y)来进行模式识别的分类方法，称为生成的分类[11]。支持向量机分类器的发明者、著名的数学家弗拉基米尔·万普尼克 A在其著作[15]中提到：

在实际问题中，信息往往是有限的。在解决一个感兴趣的问题时，不要把解决一个更一般的问题作为一个中间步骤。要试图得到所需要的答案，而不是更一般的答案。很可能你拥有足够的信息来很好地解决一个感兴趣的特定问题，但却没有足够的信息来解决一个一般性的问题。

为什么这么说呢？这是因为，即使手头的信息量不足以解决一般性问题，但对于解决特定问题，很可能是足够的。如果数据生成概率p(x, y)是已知的，

那么，从上式就可以推出后验概率p(y|x)。然而，如果后验概率p(y|x)是已知的，却不能由此推导出数据生成概率p(x, y)(图1.11)。因此，比起计算后验概率p(y|x)，可以说数据生成概率p(x, y)的计算是一般性(即求解更困难)的问题。进行模式识别时，只需计算出后验概率p(y|x)就足够了。但在生成的分类中，则要计算数据生成概率p(x, y)这个一般性的问题。如果遵循上述的弗拉基米尔·万普尼克的原理，识别的分类就是比生成的分类更好的机器学习方法。

另一方面，在很多实际问题中，经常可以获得有关数据生成概率p(x, y)的一些先验知识。例如，在声音识别过程中，可以通过事先研究人类的喉咙构造或发声机理，获得很多有关数据生成概率p(x, y)的先验知识[4]。