【技术】自动调优数据科学:新研究流线型机器学习

最近快速增长的数据科学作为一门学科和应用程序,在某种程度上具有解决问题的能力。它可以预测虚假的信用卡交易,或当一个学生即将辍学时做出预测并及时执行教育干预措施。

然而,为了获得这些数据驱动的解决方案,数据科学家必须通过一系列复杂的步骤来指导他们的原始数据,每个步骤都需要许多由人驱动的决策。流程中的最后一步 — 决定建模技术,是非常重要的。有数百种技术可供选择,从神经网络到支持向量机。如果企业选择最好的一种技术,那么可能意味着数百万美元的额外收入。

在上周的IEEE国际大数据会议上,麻省理工学院和密歇根州立大学的研究人员发表了一篇题为“自动机器学习的分布式、协作、可扩展系统”的论文,展示了一种自动化模型选择步骤的新系统,甚至提高了人类的性能。这个系统称为自动调优模型(ATM),它利用基于云计算的计算方法,在建模选项中执行高吞吐量搜索,并为特定问题找到最佳的建模技术。它还调整了模型的超参数:一种优化算法的方法,这对性能有很大的影响。ATM现在可以作为一个开源平台使用。

为了将ATM与人类执行者进行比较,研究人员测试了该系统与合作的众包平台openml.org的用户。在这个平台上,数据科学家们共同努力解决问题,通过建立彼此的工作来找到最佳的解决方案。ATM分析了平台上的47个数据集,并且能够在30%的时间里比人类提供一个更好的解决方案。而且至关重要的是,它比人类的工作速度快得多。虽然open-ml的用户平均需要100天的时间来提供一个近乎最优的解决方案,但ATM在不到一天的时间内就可以得到答案。

授权数据科学家 这种速度和准确性为数据科学家提供了帮助,他们常常被“假设分析”所困扰。“如果一个数据科学家选择支持向量机作为一种建模技术,那么一个神经网络或另一种模型是否会带来更好的准确性?”,密歇根州立大学计算机科学和工程部门的教授,也是该论文的资深作者阿伦·罗斯说道。

在过去的几年里,模型选择/调优的问题已经成为机器学习的一个新领域的焦点,也就是所谓的Auto-ML。Auto-ML解决方案旨在为给定的机器学习任务提供数据科学家的最佳模型。只有一个问题:竞争的Auto-ML方法会产生不同的结果,而且它们的方法通常是不透明的。换句话说,在寻求解决一个选择问题时,社区创建了另一个更复杂的问题。“假设的问题仍然存在。”Kalyan Veeramachaneni说道,他是麻省理工学院信息和决策系统实验室的主要研究科学家,也是该论文的另一名资深作者。“如果我们使用的是一种不同的Auto-ML方法,将会怎么样呢?”他再次问道。

ATM系统的工作原理是不同的,使用按需(on-demand)云计算来生成和比较几百个(甚至上千个)的模型。为了搜索技术,研究人员使用了一种智能选择机制。系统测试数千个模型,并对每个模型进行评估,并为那些展示承诺的技术分配更多的计算资源。糟糕的解决方案会被搁置一边,而最好的方案则会上升到顶端。

相对于盲目地选择“最佳”方案,并将其提供给用户,ATM会将结果作为一个分布来显示,从而可以并行地比较不同的方法。罗斯说,通过这种方式,ATM加速了测试和比较不同建模方法的过程,而不需要将人类的想法自动化,这仍然是数据科学过程中至关重要的一部分。

开源,社区驱动的方法 通过流线型化模型选择的过程,Veeramachaneni和他的团队的目标是让数据科学家们在管道(pipeline)中更有影响力的部分工作。Veeramachaneni说:“我们希望我们的系统能让专家们腾出更多的时间来理解数据、问题的制定和功能工程。”为了实现这一目标,研究人员正在使用开源的ATM,让那些想要使用它的企业可以使用它。他们还提供了一些条款,允许研究人员整合新的模型选择技术,从而在平台上不断地改进。ATM可以在一台机器上,本地计算集群或者云中的按需集群上运行,并且可以同时处理多个数据集和多个用户。

“一个小型的中等规模的数据科学团队可以建立并开始生产模型,这只需几个步骤。”Veeramachaneni说道。并且这些都没有一个是“假设分析”。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

Google Brain陈智峰:TensorFlow可以用来做什么?

2018 年 1 月 19 日,极客公园创新大会 IF 2018 在北京召开,Google Brain 首席工程师陈智峰分享了《寻找答案从定义问题开始——Ten...

2125
来自专栏镁客网

Leslie Valiant:机器学习所面临的挑战

9月6日,以“AI赋能,驱动未来”为主题的2018中国人工智能峰会(CAIS 2018)在南京国际博览会议中心成功召开。本次峰会汇聚了Leslie Valian...

852
来自专栏ATYUN订阅号

MIT研究:开发机器学习模型使计算机更自然地解释人类情绪

麻省理工学院媒体实验室的研究人员开发了一种机器学习模型,它使计算机更接近于像人类一样自然地解释我们的情绪。

962
来自专栏PPV课数据科学社区

数据挖掘模型的9条经验总结

第一,目标律:业务目标是所有数据解决方案的源头 它定义了数据挖掘的主题:数据挖掘关注解决业务业问题和实现业务目标。数据挖掘主要不是一种技术,而是一...

3346
来自专栏人工智能快报

DeepMind利用人工神经网络打造“类脑导航系统”

谷歌旗下的DeepMind公司在《自然》杂志发文表示,该公司构建了可模拟人类大脑“定位细胞”的人工神经网络。

912
来自专栏CDA数据分析师

数据挖掘与数据建模的9大定律(深度长文 收藏细读!)

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞...

2285
来自专栏机器学习算法与Python学习

这是机器学习算法工程师最好的时代!

对人工智能而言,2017是不平凡的一年: AlphaGo再胜人类 腾讯宣布进军AI 百度无人驾驶汽车上五环 AI教育要从娃娃抓起 寒武纪成全球AI芯片首个独角兽...

4208
来自专栏钱塘大数据

【盘点】数据挖掘与数据建模的9条定律

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。   当前的数据挖掘形式,是在20世纪90年代实...

2847
来自专栏新智元

语音翻译也能端到端?深度学习这条路有戏!

你或许会说,语音识别和机器翻译——没错,传统的语音翻译通常采用语音识别和机器翻译级联的方式实现,对输入语音先进行语音识别得到文本结果,然后再基于文本进行机器翻译...

864
来自专栏数据科学与人工智能

【数据挖掘】数据挖掘模型的9条经验总结

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞...

2509

扫码关注云+社区