每个人都应该了解机器学习

liuxuewen

修改于 2018-09-18 15:38:32

3940

修改于 2018-09-18 15:38:32

文章被收录于专栏：技术翻译

在过去的几个月里，我有机会与很多决策者讨论人工智能，特别是机器学习。他们的投资者已经向他们的一些高管询问他们的机器学习（ML）策略以及他们已经实施ML的地方。那么这个技术主题是如何突然成为公司董事会讨论的话题呢？

计算机应该为人类解决任务。传统的方法是“编程”所需的程序；换句话说，我们教计算机一个合适的问题解决算法。该算法是对一个过程的详细描述，类似于配方。算法可以有效地描述许多任务。例如，在小学，我们都学会了用于添加数字的算法。当谈到快速和完美地执行算法，计算机远远优于人类。

但是，这个程序有其局限性。我们如何识别猫的照片？这个看似简单的任务难以构建为算法。让我们停下来思考一下。即使是简单的指令，例如“有四条腿”或“有两只眼睛”也有它们的缺点，因为这些特征可能被隐藏，或者照片可能只显示猫的一部分。然后我们会遇到识别腿部或眼睛的下一个任务，这与识别猫一样困难。

这正是机器学习的力量所在。计算机不是必须开发算法来解决问题，而是使用示例来学习自身的算法。我们根据样品训练计算机。使用我们的猫示例，这可能意味着我们使用大量照片训练系统，其中描绘了相应标记的猫（监督学习）。通过这种方式，算法发展并成熟，最终能够识别不熟悉图片上的猫。

事实上，在这种情况下，计算机通常不会像模型中的参数那样学习经典程序，例如网络中的边缘权重。这个原则可以与我们大脑中的学习过程进行比较，神经细胞(神经元)之间的联系就是在这个过程中适应的。就像大脑，与经典程序不同，这种具有边缘权重的网络几乎不可能被人类解释。

在这种情况下，一种特殊的人工神经网络学习方法被证明是特别成功的。深入学习是机器学习的一门专业，而机器学习又是人工智能的一个子学科，是计算机科学研究的一个重要分支。早在2012年，谷歌(Google)的一个研究小组就成功地训练了一个由1.6万台电脑组成的网络，利用1000万段YouTube视频从图像中识别猫(和其他物体类别)，所采用的方法就是深入学习。

许多与实践相关的问题更多地属于“识别猫”的范畴，而不是“添加数字”，因此，不能用人类编写的算法来充分解决。这常常是一个识别某些数据中的模式的问题，例如识别图像中的对象、从语言中识别文本或试图在交易数据中进行欺诈。

对于一个简单的例子，让我们来看看预测维护。想象一下，很多传感器会发送数据流，偶尔会有一台机器发生故障。因此，挑战在于了解最终导致故障的数据流中的模式。一旦了解了这一模式，就可以在正常操作期间加以识别，以便能够预见和防止潜在的故障。

虽然机器学习的原理并不是新的，但它目前正在流行起来。造成这种情况的主要原因有三个：第一，应用程序和培训(“大数据”)所需的大量数据的可用性。其次，我们现在有了巨大的计算能力，特别是在云计算中。第三，一系列开放源码项目已经使算法或多或少地为每个人所访问。

机器学习并不能取代传统的编程，而是对它的补充。它提供的工具使我们能够另外解决迄今为止难以掌握甚至无法掌握的主要问题。总的来说，这些为我们提供了新的机会，而现有的系统也越来越多地适应机器学习功能。

遵循模式的重复操作是一个典型的例子。想象一下，通过一系列复杂的菜单访问了一百个功能的计算机程序，但是你每天只能主动使用其中的一些。通过观察你通常采取的步骤，计算机可以学会预测你的下一步行动，从而提高效率。或者，进行数据的分配和转换（例如，用于填充数据仓库的ETL作业）;在计算机“学习”重复数据和对象的地方，许多步骤可以自动化并加速。

几乎每个领域都有更多的例子：适合个别学生的学习材料（特别是“大规模开放在线课程”或MOOCs），疾病的早期诊断，正确的在线营销目标群体，客户流失，自动识别数据质量问题，或通过日常服务匹配用户简档。

凭借其先进的工具，Spark（与Hadoop结合使用）已成为机器学习领域领先的大数据框架。 Talend也在采用这种方法，但通过对工作进行建模（包括培训和生产中的部署）来提高层次。建模降低了复杂性，同时导致与底层技术的一定程度的独立性，这些技术继续快速变化，因此只有少数专家才能访问。

只有少数专家需要真正了解机器学习领域中最精细的算法细节。另一方面，理解ML的概念对每个人都是有益的，ML基本上是从示例中学习模式并且能够在新的数据集上使用它们。最终，这扩大了可以用机器解决的问题类别，因此可以自动化：特别是通过决策过程。这正是计算机学到的东西;它根据从训练数据中积累的知识做出关于新数据的决定。一方面，通过自动化决策，我们可以利用这一优势 - 无论我们的业务还是圈子。另一方面，我们自己代表了其他人的机器将分析的恒定数据来源，以优化他们自己的业务。

总之，计算机现在不仅能够遵循明确的指令，而且还能够通过示例学习。根据挑战，一个程序可能比另一个更合适。但是，这两个程序可以以无限多种方式组合，最终为自动化带来更多机会。

原文标题《What Everyone Should Know About Machine Learning》

作者：Gero Presser

译者：lemon

不代表云加社区观点，更多详情请查看原文链接

本文系外文翻译，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能