自动调优数据科学:新研究使机器学习流线化

一个新的自动化机器学习系统比它的人类同行表现得更好,并且工作速度提高了100倍。

数据科学既是一门学科又是一个应用程序。它最近的飞速发展可以部分归因于其强大的问题解决能力:它可以预测带有欺骗性的信用卡交易;帮助业主弄清楚什么时候发放优惠券可以最大限度的提高顾客反应;或者在学生即将退学的时候,通过预测来促进教育干预。

然而,为了得到这些数据驱动的解决方案,数据科学家必须通过一系列复杂的步骤来跟踪他们的原始数据,每个步骤都需要很多人为决策。整个过程的最后一步需选定一种建模技术,这是至关重要的一步。从神经网络到支持向量机,有数百种技术可供选择,选择最好的一种可能意味着数百万美元的额外收入,或者发现关键医疗设备缺陷和错过这种发现的区别。

近期,麻省理工学院和密歇根州立大学的研究人员在IEEE国际大数据会议上发表了一篇题为“自动调优模型:分布式、协作式、可扩展自动机器学习系统”的论文。该论文提出了一种新的系统,可以让模型选择步骤自动化,甚至可以提高人类的表现。该系统被称为自动调优模型(Auto-Tuned Model,ATM),它利用云计算对建模选项进行高通量的搜索,为特定的问题找到最佳的建模技术。它还对模型的超参数进行了优化(对算法进行优化),这对性能有实质性的影响。自动调优模型现在作为开源平台供企业使用。

为了比较自动调优模型与人类的表现,研究人员用协作众包平台openml.org的用户对系统进行测试。在这个平台上,数据科学家合作解决问题,以彼此的工作为基础寻找最佳解决方案。自动调优模型分析了来自该平台的47个数据集,所提供的解决方案比当时人类提供的解决方案要好30%。如果它的表现无法比人类好,它也与人类水平非常接近,而且至关重要的是,它的工作速度比人类快得多。开放的机器学习用户平均需要100天来提供一个近乎最优的解决方案,而自动调优模型已经可以在不到一天的时间内给出一个答案。

这种速度和准确度为经常被“假设”所困扰的数据科学家提供了急需的平和心态。“数据科学家有很多种选择。”这篇论文的作者、美国密歇根州立大学(Michigan State University)计算机科学与工程学系教授说,“如果一位数据科学家选择支持向量机作为建模技术,那么,总是萦绕在她脑海里的问题就是:神经网络或不同的模型是否会带来更高的准确性?”

在过去的几年里,模型选择/调优问题已经成为机器学习一个新的子领域自动机器学习(Auto-ML)的焦点。自动机器学习解决方案旨在为数据科学家提供具体机器学习任务的最佳模型。只存在一个问题:相互竞争的自动机器学习方法会产生不同的结果,而且它们的方法通常不透明。换句话说,在寻求解决一个选择问题的同时,这个共同体创造了另一个更加复杂的问题。“‘假设’问题仍然存在。”该论文的资深作者、麻省理工学院信息和决策系统实验室(LIDS)的首席研究科学家说,“问题只是变成了‘如果我们使用不同的自动机器学习方法呢?’”

自动调优模型系统的工作方式不同,它使用随需应变的云计算,在一夜之间生成并比较数百个(甚至数千个)模型。为了搜索技术,研究人员采用了智能选择机制。该系统对数千个模型进行并行测试,然后对每个模型进行评估,并将更多的计算资源分配给那些有望成功的技术。糟糕的解决方案会中途退出,而最好的选择则会拔得头筹。

自动调优模型不是盲目地选择“最好的”提供给用户,而是将结果显示为一种分布,可以并排比较不同的方法。研究人员表示,通过这种方式,自动调优模型加快了测试和比较不同建模方法的过程,而不会自动化人类的直觉——这仍然是数据科学过程的一个重要部分。

通过流线化模型选择的过程,该研究团队的目标是让数据科学家能够研究更有影响力的部分。研究人员表示:“我们希望我们的系统能让专家们腾出更多时间来了解数据、问题的形成和特色工程。”

为此,研究人员开源了自动调优模型,让那些想要使用它的企业可以用。他们还添加了条款,允许研究人员整合新的模型选择技术,从而在平台上不断改进。自动调优模型可以在一台机器运行,也可以在本地计算集群或随需应变的云端集群上运行,能同时处理多个数据集和多个用户。

“只用几个步骤,中小型的数据科学团队可以建立和生产模型。”研究人员表示,而这些步骤都不需要进行“假设”。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2018-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【论文读书笔记】自动驾驶新思路:现实域到虚拟域统一的无监督方法

【导读】近日,针对无人驾驶中端到端模型缺乏训练数据以及训练数据噪声大、模型难解释等问题,来自卡内基梅隆大学、Petuum公司的Eric P. Xing等学者发表...

3063
来自专栏机器之心

为何Python攀上数据科学巅峰?KDnuggets2017调查Python超越R

选自KDnuggets等 机器之心整理 参与:李泽南、李亚洲、路旭阳 根据 KDnuggets 2017 年最新调查,Python 生态系统已经超过了 R,成为...

32010
来自专栏计算机视觉战队

人脸检测与识别技术(怎么去创新?)

首先给大家展示下简单的人脸检测与识别!(生活场景剧——生活大爆炸!) ? ---- 自从“阿法狗”再次击败人类,再一次掀起了深度学习(人工智能)的热潮。而且在该...

3916
来自专栏人工智能头条

美团付晴川:算法工程师需要考察三种素养

1493
来自专栏新智元

AI vs 深度学习 vs 机器学习:人工智能的 12 大应用场景

【新智元导读】在本文中,作者先探讨了深度学习的特点和优势,然后介绍了12种类型的AI问题,即:在哪些场景下应该使用人工智能(AI)?作者强调企业AI问题,因为他...

3065
来自专栏AI科技大本营的专栏

不止20k,Python薪酬又飙升了?(内附转型指南)

Python 诞生之初就被誉为最容易上手的编程语言。进入火热的 AI 人工智能时代后,它也逐渐取代 Java,成为编程界的头牌语言。更有码农圈金句:「学完 Py...

3546
来自专栏大数据文摘

业界 | 如何成为一名数据科学家?听听来自Netfix的老司机怎么说

数据科学是什么?数据分析?机器学习?还是数据工程?答案可能有很多,但也许只有直接与某个公司的数据科学家交流,才能了解该公司是如何看待数据科学的。由Netflix...

401
来自专栏大数据文摘

跨界,圈外人该如何闯入数据科学家的世界?

1576
来自专栏新智元

再见AI黑匣子:研究人员教会AI进行自我解释

---- 新智元编译 来源:thenextweb 作者:艾霄葆 【新智元导读】AI决策过程的黑匣子问题一直是AI领域最大的担忧之一,但近期黑匣子决策问...

34811
来自专栏Spark学习技巧

数据科学的工作流程

本文浪尖主要讲讲数据分析企业内的工作流程。 随着,云计算使得计算能力的提示,大数据技术的飞速发展,数据也是备受企业重视,企业内部都是在想法设法的得到你的数据,...

2766

扫描关注云+社区