新型的机器学习系统可比人类科学家快100倍

本文由人工智能观察编译

译者:Sandy

根据麻省理工学院和密歇根州立大学的一篇新论文,一个新的自动化机器学习系统在分析数据、提出问题解决方案方面比人类要快100倍,这有助于企业以更快、更简单的方式实现机器学习能力的应用,同时,也会填补数据科学人才的缺口。

当寻求问题的解决方案时,数据科学家需要浏览大量数据集,并选择最有效的建模技术。问题是,有数百种技术可供选择,包括神经网络和支持向量机,选择最好的技术可能意味着数百万美元的额外收入,或者在关键的医疗设备上找出缺陷。

麻省理工学院和密歇根州立大学的研究人员最近在IEEE国际大数据会议上发表了一篇名为《ATM:一种分布式、协作式、可扩展的自动化机器学习系统》的论文,介绍了一种可实现模型选择自动化的新系统,甚至还可以提升人类的表现。研究员称这一系统为“自动调整模型”(ATM)。

据了解,ATM使用基于云的、按需计算来完成高通量的搜索,并为给定的问题找到最佳的建模技术。该系统还调整优化了模型的超参数,以获得最好的结果。

为了对ATM和人类进行比较,研究人员将该系统与使用协作式众包平台openml.org的用户进行了一番测试。数据科学家们经常在这个平台上一起解决问题,通过完善彼此的工作来找到最佳解决方案。据统计,ATM从平台分析了47个数据集,而且,在30%的时间里提出的解决方案比人类的要更好。

更重要的是,ATM的工作速度也比人类快得多:人类的开放用户平均需要200天才能完成一个解决方案,而ATM机可以用不到一天的时间创建出一个性能更好的模型。

密歇根州立大学计算机科学与工程学院的教授,该论文的资深作者Arun Ross说道:“有太多的建模技术可供选择。如果数据科学家选择支持向量机作为建模技术,那么一种神经网络或者另一个不同的模型是否会带来更高的准确性呢?这个问题始终会萦绕在他的脑海里。”

在过去的几年里,模型选择/调优这个问题已成为机器学习的一个全新领域,也就是所谓的自动化机器学习(Auto-ML)。自动化机器学习解决方案旨在为数据科学家提供最适合某项特定机器学习任务的模型。但是存在一个问题:彼此竞争的自动化机器学习方法会产生不同的结果,而且,通常来说,他们的方法常常是不透明的。换句话说,在寻求一个问题的解决方案的时候,社区往往会带来另一个更为复杂的问题。

ATM系统的工作原理与此不同,它使用按需云计算,在短时间内生成和比较成百上千个模型。为了搜寻建模技术,研究人员使用了一种智能选择机制。此外,ATM系统会测试数千个模型,并对每个模型进行评估,以便将更多的计算资源分配给某一问题的最佳解决方案。随后,系统将其结果进行分布展示,这样研究人员就可以对不同的解决方案进行比较。

同时,研究人员指出,通过自动化来简化模型的选择过程,可以帮助数据科学家处理更为复杂的问题。“我们希望这个系统能减轻专家们的工作量,让他们将更多的时间用于数据理解,问题界定以及重点工程上。”麻省理工学院信息与决策系统实验室的首席研究科学家兼论文的合著者Kalyan Veeramachaneni如是说。

目前,ATM是一个开放源码平台,可供企业使用。它可以在单独的机器,本地计算集群,或者云端的按需集群上运行。麻省理工学院还指出,它也可以同时处理多个数据集或者多个用户。Veeramachaneni表示:“有了ATM,一个中小型规模的数据科学团队从建立到开始构建模型,只需几个步骤即可完成。”

本文来自企鹅号 - 人工智能观察媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Material Design组件

About Face 4 第二章(1)定性与定量研究

37911
来自专栏数据猿

实现财务自由,这个工作是我们未来几年最好的选择

2173
来自专栏镁客网

英伟达展示逆天PS技术,用人工智能做了n张假明星照片 | 热点

1820
来自专栏AI科技评论

CNCC 2018 | 快手科技李岩:多模态技术在产业界的应用与未来展望

AI 科技评论按:在 CNCC2018「高通量媒体内容理解论坛」上,快手科技多媒体内容理解部负责人李岩发表了题为「多模态内容生产与理解」的演讲,讲述了带领多媒体...

1122
来自专栏PPV课数据科学社区

【观点】大数据会给很多人新的机会,但也会让一些经典模型黯然失色

本文是微软亚洲研究院主管研究员 上海交通大学讲座教授郑宇对大数据一些粗浅的看法和认知: 1. 大数据可以消除不同行业之间因为理论差异而带来的鸿沟...

2797
来自专栏华章科技

数据科学领域的一张网红图

数据科学、机器学习、大数据、认知计算……我们几乎每天都被铺天盖地的关于这些概念的文章和观点包围着。但有一点是肯定的:别妄想一夜成为数据科学家。这条路很漫长,也充...

622
来自专栏程序员互动联盟

多年Java开发研究机器学习技术需要哪些基础?

多年的java开发经验切入到新的领域,需要熟悉的新规则和技巧。 但对于人工智能来说,不是简单的熟悉一下新的规则那么简单的事情了,主要人工智能是一个综合性极强,...

37212
来自专栏人工智能头条

京东DNN实验室:大数据、深度学习与计算平台的实践

1984
来自专栏PPV课数据科学社区

人工智能的过去、现在和未来

人工智能(Artificial Intelligence,AI)是指计算机像人一样拥有智能能力,是一个融合计算机科学、统计学、脑神经学和社会科学的前沿综合学科,...

1601
来自专栏机器之心

业界 | 让人工智能学会谈判,Facebook开源端到端强化学习模型

选自code.facebook 机器之心编译 参与:吴攀、李亚洲 每天从我们醒来的那一刻,生活中就充满了经常性的谈判(negotiations)。这些场景包括讨...

34111

扫码关注云+社区

领取腾讯云代金券