自动调优数据科学:新研究使机器学习流线化

一个新的自动化机器学习系统比它的人类同行表现得更好,并且工作速度提高了100倍。

数据科学既是一门学科又是一个应用程序。它最近的飞速发展可以部分归因于其强大的问题解决能力:它可以预测带有欺骗性的信用卡交易;帮助业主弄清楚什么时候发放优惠券可以最大限度的提高顾客反应;或者在学生即将退学的时候,通过预测来促进教育干预。

然而,为了得到这些数据驱动的解决方案,数据科学家必须通过一系列复杂的步骤来跟踪他们的原始数据,每个步骤都需要很多人为决策。整个过程的最后一步需选定一种建模技术,这是至关重要的一步。从神经网络到支持向量机,有数百种技术可供选择,选择最好的一种可能意味着数百万美元的额外收入,或者发现关键医疗设备缺陷和错过这种发现的区别。

近期,麻省理工学院和密歇根州立大学的研究人员在IEEE国际大数据会议上发表了一篇题为“自动调优模型:分布式、协作式、可扩展自动机器学习系统”的论文。该论文提出了一种新的系统,可以让模型选择步骤自动化,甚至可以提高人类的表现。该系统被称为自动调优模型(Auto-Tuned Model,ATM),它利用云计算对建模选项进行高通量的搜索,为特定的问题找到最佳的建模技术。它还对模型的超参数进行了优化(对算法进行优化),这对性能有实质性的影响。自动调优模型现在作为开源平台供企业使用。

为了比较自动调优模型与人类的表现,研究人员用协作众包平台openml.org的用户对系统进行测试。在这个平台上,数据科学家合作解决问题,以彼此的工作为基础寻找最佳解决方案。自动调优模型分析了来自该平台的47个数据集,所提供的解决方案比当时人类提供的解决方案要好30%。如果它的表现无法比人类好,它也与人类水平非常接近,而且至关重要的是,它的工作速度比人类快得多。开放的机器学习用户平均需要100天来提供一个近乎最优的解决方案,而自动调优模型已经可以在不到一天的时间内给出一个答案。

这种速度和准确度为经常被“假设”所困扰的数据科学家提供了急需的平和心态。“数据科学家有很多种选择。”这篇论文的作者、美国密歇根州立大学(Michigan State University)计算机科学与工程学系教授说,“如果一位数据科学家选择支持向量机作为建模技术,那么,总是萦绕在她脑海里的问题就是:神经网络或不同的模型是否会带来更高的准确性?”

在过去的几年里,模型选择/调优问题已经成为机器学习一个新的子领域自动机器学习(Auto-ML)的焦点。自动机器学习解决方案旨在为数据科学家提供具体机器学习任务的最佳模型。只存在一个问题:相互竞争的自动机器学习方法会产生不同的结果,而且它们的方法通常不透明。换句话说,在寻求解决一个选择问题的同时,这个共同体创造了另一个更加复杂的问题。“‘假设’问题仍然存在。”该论文的资深作者、麻省理工学院信息和决策系统实验室(LIDS)的首席研究科学家说,“问题只是变成了‘如果我们使用不同的自动机器学习方法呢?’”

自动调优模型系统的工作方式不同,它使用随需应变的云计算,在一夜之间生成并比较数百个(甚至数千个)模型。为了搜索技术,研究人员采用了智能选择机制。该系统对数千个模型进行并行测试,然后对每个模型进行评估,并将更多的计算资源分配给那些有望成功的技术。糟糕的解决方案会中途退出,而最好的选择则会拔得头筹。

自动调优模型不是盲目地选择“最好的”提供给用户,而是将结果显示为一种分布,可以并排比较不同的方法。研究人员表示,通过这种方式,自动调优模型加快了测试和比较不同建模方法的过程,而不会自动化人类的直觉——这仍然是数据科学过程的一个重要部分。

通过流线化模型选择的过程,该研究团队的目标是让数据科学家能够研究更有影响力的部分。研究人员表示:“我们希望我们的系统能让专家们腾出更多时间来了解数据、问题的形成和特色工程。”

为此,研究人员开源了自动调优模型,让那些想要使用它的企业可以用。他们还添加了条款,允许研究人员整合新的模型选择技术,从而在平台上不断改进。自动调优模型可以在一台机器运行,也可以在本地计算集群或随需应变的云端集群上运行,能同时处理多个数据集和多个用户。

“只用几个步骤,中小型的数据科学团队可以建立和生产模型。”研究人员表示,而这些步骤都不需要进行“假设”。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2018-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

火爆的机器学习和人工智能,为何在金融业四处碰壁?

在2008年金融危机期间,银行业认识到,他们的机器学习算法是基于有缺陷的假设。 因此,金融体系监管机构决定需要额外的控制措施,并引入了对银行和保险公司进行“模式...

3356
来自专栏张善友的专栏

机器学习概览

1348
来自专栏大数据和云计算技术

机器学习(Machine Learning, ML)--应用场景

最近开始学习机器学习,今天先分享一下机器学习概念和常用场景。 1、什么是机器学习? 机器学习(Machine Learning, ML) 专门研究计算机怎样模拟...

37910
来自专栏新智元

【干货】开发者如何掌握机器学习?传统方法可能都走了弯路

【新智元导读】作为一名开发者,怎么才能加入时下正火热的机器学习?本文作者Jason认为,传统的方法,包括从经典图书、博客文章或线上课程进行学习成效不大,甚至“错...

34416
来自专栏CDA数据分析师

3个必须知晓的数据分析概念,无论资深还是小白

介绍 在过去的几年中,人们对数据分析方法越来越重视。通过深入洞察数据情况,帮助很多企业改善了其经营状况。 通过分析数据,企业可以对其企业过往以及未来的表现有了...

2085
来自专栏新智元

Keras之父:大多数深度学习论文都是垃圾,炒作AI危害很大

编辑: 常佩琦 【新智元导读】 Keras之父、谷歌大脑人工智能和深度学习研究员François Chollet 近日接受采访,对自己的新书《Python深度...

3928
来自专栏镁客网

谷歌正在研究能够让计算机合成语音更加自然的技术 | 黑科技

1183
来自专栏大咖说

阿里盖坤:用深度学习打造真正的智能化广告系统

文章原创首发于微信公众号「 TGO 鲲鹏会」,原文地址:阿里盖坤:用深度学习打造真正的智能化广告系统

1873
来自专栏量子位

普通码农入门机器学习,必须掌握这些数据技能

王瀚宸 编译自 InfoWorld 作者 Ted Dunning MapR首席应用架构师 量子位 出品 | 公众号 QbitAI ? 其实,机器学习一直在解决着...

3045
来自专栏机器之心

资源 | 让AI学会刨根问底和放飞自我,斯坦福最新问答数据集CoQA

作者:Siva Reddy、Danqi Chen、Christopher D. Manning

601

扫码关注云+社区