新型的机器学习系统可比人类科学家快100倍

企鹅号小编

发布于 2018-02-06 11:04:32

5800

发布于 2018-02-06 11:04:32

文章被收录于专栏：企鹅号快讯

本文由人工智能观察编译

译者：Sandy

根据麻省理工学院和密歇根州立大学的一篇新论文，一个新的自动化机器学习系统在分析数据、提出问题解决方案方面比人类要快100倍，这有助于企业以更快、更简单的方式实现机器学习能力的应用，同时，也会填补数据科学人才的缺口。

当寻求问题的解决方案时，数据科学家需要浏览大量数据集，并选择最有效的建模技术。问题是，有数百种技术可供选择，包括神经网络和支持向量机，选择最好的技术可能意味着数百万美元的额外收入，或者在关键的医疗设备上找出缺陷。

麻省理工学院和密歇根州立大学的研究人员最近在IEEE国际大数据会议上发表了一篇名为《ATM：一种分布式、协作式、可扩展的自动化机器学习系统》的论文，介绍了一种可实现模型选择自动化的新系统，甚至还可以提升人类的表现。研究员称这一系统为“自动调整模型”（ATM）。

据了解，ATM使用基于云的、按需计算来完成高通量的搜索，并为给定的问题找到最佳的建模技术。该系统还调整优化了模型的超参数，以获得最好的结果。

为了对ATM和人类进行比较，研究人员将该系统与使用协作式众包平台openml.org的用户进行了一番测试。数据科学家们经常在这个平台上一起解决问题，通过完善彼此的工作来找到最佳解决方案。据统计，ATM从平台分析了47个数据集，而且，在30%的时间里提出的解决方案比人类的要更好。

更重要的是，ATM的工作速度也比人类快得多：人类的开放用户平均需要200天才能完成一个解决方案，而ATM机可以用不到一天的时间创建出一个性能更好的模型。

密歇根州立大学计算机科学与工程学院的教授，该论文的资深作者Arun Ross说道：“有太多的建模技术可供选择。如果数据科学家选择支持向量机作为建模技术，那么一种神经网络或者另一个不同的模型是否会带来更高的准确性呢？这个问题始终会萦绕在他的脑海里。”

在过去的几年里，模型选择/调优这个问题已成为机器学习的一个全新领域，也就是所谓的自动化机器学习（Auto-ML）。自动化机器学习解决方案旨在为数据科学家提供最适合某项特定机器学习任务的模型。但是存在一个问题：彼此竞争的自动化机器学习方法会产生不同的结果，而且，通常来说，他们的方法常常是不透明的。换句话说，在寻求一个问题的解决方案的时候，社区往往会带来另一个更为复杂的问题。

ATM系统的工作原理与此不同，它使用按需云计算，在短时间内生成和比较成百上千个模型。为了搜寻建模技术，研究人员使用了一种智能选择机制。此外，ATM系统会测试数千个模型，并对每个模型进行评估，以便将更多的计算资源分配给某一问题的最佳解决方案。随后，系统将其结果进行分布展示，这样研究人员就可以对不同的解决方案进行比较。

同时，研究人员指出，通过自动化来简化模型的选择过程，可以帮助数据科学家处理更为复杂的问题。“我们希望这个系统能减轻专家们的工作量，让他们将更多的时间用于数据理解，问题界定以及重点工程上。”麻省理工学院信息与决策系统实验室的首席研究科学家兼论文的合著者Kalyan Veeramachaneni如是说。

目前，ATM是一个开放源码平台，可供企业使用。它可以在单独的机器，本地计算集群，或者云端的按需集群上运行。麻省理工学院还指出，它也可以同时处理多个数据集或者多个用户。Veeramachaneni表示:“有了ATM，一个中小型规模的数据科学团队从建立到开始构建模型，只需几个步骤即可完成。”

本文来自企鹅号 - 人工智能观察媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能