自动调优数据科学:新研究使机器学习流线化

一个新的自动化机器学习系统比它的人类同行表现得更好,并且工作速度提高了100倍。

数据科学既是一门学科又是一个应用程序。它最近的飞速发展可以部分归因于其强大的问题解决能力:它可以预测带有欺骗性的信用卡交易;帮助业主弄清楚什么时候发放优惠券可以最大限度的提高顾客反应;或者在学生即将退学的时候,通过预测来促进教育干预。

然而,为了得到这些数据驱动的解决方案,数据科学家必须通过一系列复杂的步骤来跟踪他们的原始数据,每个步骤都需要很多人为决策。整个过程的最后一步需选定一种建模技术,这是至关重要的一步。从神经网络到支持向量机,有数百种技术可供选择,选择最好的一种可能意味着数百万美元的额外收入,或者发现关键医疗设备缺陷和错过这种发现的区别。

近期,麻省理工学院和密歇根州立大学的研究人员在IEEE国际大数据会议上发表了一篇题为“自动调优模型:分布式、协作式、可扩展自动机器学习系统”的论文。该论文提出了一种新的系统,可以让模型选择步骤自动化,甚至可以提高人类的表现。该系统被称为自动调优模型(Auto-Tuned Model,ATM),它利用云计算对建模选项进行高通量的搜索,为特定的问题找到最佳的建模技术。它还对模型的超参数进行了优化(对算法进行优化),这对性能有实质性的影响。自动调优模型现在作为开源平台供企业使用。

为了比较自动调优模型与人类的表现,研究人员用协作众包平台openml.org的用户对系统进行测试。在这个平台上,数据科学家合作解决问题,以彼此的工作为基础寻找最佳解决方案。自动调优模型分析了来自该平台的47个数据集,所提供的解决方案比当时人类提供的解决方案要好30%。如果它的表现无法比人类好,它也与人类水平非常接近,而且至关重要的是,它的工作速度比人类快得多。开放的机器学习用户平均需要100天来提供一个近乎最优的解决方案,而自动调优模型已经可以在不到一天的时间内给出一个答案。

这种速度和准确度为经常被“假设”所困扰的数据科学家提供了急需的平和心态。“数据科学家有很多种选择。”这篇论文的作者、美国密歇根州立大学(Michigan State University)计算机科学与工程学系教授说,“如果一位数据科学家选择支持向量机作为建模技术,那么,总是萦绕在她脑海里的问题就是:神经网络或不同的模型是否会带来更高的准确性?”

在过去的几年里,模型选择/调优问题已经成为机器学习一个新的子领域自动机器学习(Auto-ML)的焦点。自动机器学习解决方案旨在为数据科学家提供具体机器学习任务的最佳模型。只存在一个问题:相互竞争的自动机器学习方法会产生不同的结果,而且它们的方法通常不透明。换句话说,在寻求解决一个选择问题的同时,这个共同体创造了另一个更加复杂的问题。“‘假设’问题仍然存在。”该论文的资深作者、麻省理工学院信息和决策系统实验室(LIDS)的首席研究科学家说,“问题只是变成了‘如果我们使用不同的自动机器学习方法呢?’”

自动调优模型系统的工作方式不同,它使用随需应变的云计算,在一夜之间生成并比较数百个(甚至数千个)模型。为了搜索技术,研究人员采用了智能选择机制。该系统对数千个模型进行并行测试,然后对每个模型进行评估,并将更多的计算资源分配给那些有望成功的技术。糟糕的解决方案会中途退出,而最好的选择则会拔得头筹。

自动调优模型不是盲目地选择“最好的”提供给用户,而是将结果显示为一种分布,可以并排比较不同的方法。研究人员表示,通过这种方式,自动调优模型加快了测试和比较不同建模方法的过程,而不会自动化人类的直觉——这仍然是数据科学过程的一个重要部分。

通过流线化模型选择的过程,该研究团队的目标是让数据科学家能够研究更有影响力的部分。研究人员表示:“我们希望我们的系统能让专家们腾出更多时间来了解数据、问题的形成和特色工程。”

为此,研究人员开源了自动调优模型,让那些想要使用它的企业可以用。他们还添加了条款,允许研究人员整合新的模型选择技术,从而在平台上不断改进。自动调优模型可以在一台机器运行,也可以在本地计算集群或随需应变的云端集群上运行,能同时处理多个数据集和多个用户。

“只用几个步骤,中小型的数据科学团队可以建立和生产模型。”研究人员表示,而这些步骤都不需要进行“假设”。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2018-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

Leslie Valiant:机器学习所面临的挑战

9月6日,以“AI赋能,驱动未来”为主题的2018中国人工智能峰会(CAIS 2018)在南京国际博览会议中心成功召开。本次峰会汇聚了Leslie Valian...

742
来自专栏人工智能快报

DeepMind利用人工神经网络打造“类脑导航系统”

谷歌旗下的DeepMind公司在《自然》杂志发文表示,该公司构建了可模拟人类大脑“定位细胞”的人工神经网络。

852
来自专栏PPV课数据科学社区

数据挖掘模型的9条经验总结

第一,目标律:业务目标是所有数据解决方案的源头 它定义了数据挖掘的主题:数据挖掘关注解决业务业问题和实现业务目标。数据挖掘主要不是一种技术,而是一...

3216
来自专栏大数据文摘

学界 | MIT最新:机器学习首次模仿大脑处理声音,能辩歌词和歌曲分类

1927
来自专栏达观数据

分享回顾丨如何利用NLP技术从海量文本中提取观点?

3113
来自专栏AI科技大本营的专栏

2017深度学习展望

---- 作者: James Kobielus 编译: AI100 原文地址: http://www.kdnuggets.com/2016/12/ibm-...

2445
来自专栏PPV课数据科学社区

学习了哪些知识,计算机视觉才算入门?

有感于大家对计算机视觉研究的热情,同时对计算机视觉研究认知的局限性,或者说是基本研究方法和思路上的局限性。华刚博士根据最近计算机视觉领域国际权威、加州大学洛杉矶...

1032
来自专栏镁客网

Facebook推出人工智能引擎DeepText,让机器更好的理解语言和内容

1644
来自专栏IT派

AI工程师应聘要具备哪些能力?

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 作者|洪亮劼 出处|极客时间专栏《AI 技术内参》 洪亮劼,电子商务平台 Etsy 的数据科...

4047
来自专栏计算机视觉战队

Deep Learning的展望

随着2017年的到来,深度学习技术也迎来了新的一年。深度学习是一门基于多层神经网络的技术,此项技术是许多颠覆性技术(如人工智能、认知计算、实时数据流分析等)的基...

3599

扫码关注云+社区