自动调优数据科学：新研究使机器学习流线化

人工智能快报

发布于 2018-03-07 11:42:06

7050

发布于 2018-03-07 11:42:06

文章被收录于专栏：人工智能快报

一个新的自动化机器学习系统比它的人类同行表现得更好，并且工作速度提高了100倍。

数据科学既是一门学科又是一个应用程序。它最近的飞速发展可以部分归因于其强大的问题解决能力：它可以预测带有欺骗性的信用卡交易；帮助业主弄清楚什么时候发放优惠券可以最大限度的提高顾客反应；或者在学生即将退学的时候，通过预测来促进教育干预。

然而，为了得到这些数据驱动的解决方案，数据科学家必须通过一系列复杂的步骤来跟踪他们的原始数据，每个步骤都需要很多人为决策。整个过程的最后一步需选定一种建模技术，这是至关重要的一步。从神经网络到支持向量机，有数百种技术可供选择，选择最好的一种可能意味着数百万美元的额外收入，或者发现关键医疗设备缺陷和错过这种发现的区别。

近期，麻省理工学院和密歇根州立大学的研究人员在IEEE国际大数据会议上发表了一篇题为“自动调优模型：分布式、协作式、可扩展自动机器学习系统”的论文。该论文提出了一种新的系统，可以让模型选择步骤自动化，甚至可以提高人类的表现。该系统被称为自动调优模型(Auto-Tuned Model，ATM)，它利用云计算对建模选项进行高通量的搜索，为特定的问题找到最佳的建模技术。它还对模型的超参数进行了优化（对算法进行优化），这对性能有实质性的影响。自动调优模型现在作为开源平台供企业使用。

为了比较自动调优模型与人类的表现，研究人员用协作众包平台openml.org的用户对系统进行测试。在这个平台上，数据科学家合作解决问题，以彼此的工作为基础寻找最佳解决方案。自动调优模型分析了来自该平台的47个数据集，所提供的解决方案比当时人类提供的解决方案要好30%。如果它的表现无法比人类好，它也与人类水平非常接近，而且至关重要的是，它的工作速度比人类快得多。开放的机器学习用户平均需要100天来提供一个近乎最优的解决方案，而自动调优模型已经可以在不到一天的时间内给出一个答案。

这种速度和准确度为经常被“假设”所困扰的数据科学家提供了急需的平和心态。“数据科学家有很多种选择。”这篇论文的作者、美国密歇根州立大学(Michigan State University)计算机科学与工程学系教授说，“如果一位数据科学家选择支持向量机作为建模技术，那么，总是萦绕在她脑海里的问题就是：神经网络或不同的模型是否会带来更高的准确性？”

在过去的几年里，模型选择/调优问题已经成为机器学习一个新的子领域自动机器学习（Auto-ML）的焦点。自动机器学习解决方案旨在为数据科学家提供具体机器学习任务的最佳模型。只存在一个问题：相互竞争的自动机器学习方法会产生不同的结果，而且它们的方法通常不透明。换句话说，在寻求解决一个选择问题的同时，这个共同体创造了另一个更加复杂的问题。“‘假设’问题仍然存在。”该论文的资深作者、麻省理工学院信息和决策系统实验室(LIDS)的首席研究科学家说，“问题只是变成了‘如果我们使用不同的自动机器学习方法呢?’”

自动调优模型系统的工作方式不同，它使用随需应变的云计算，在一夜之间生成并比较数百个(甚至数千个)模型。为了搜索技术，研究人员采用了智能选择机制。该系统对数千个模型进行并行测试，然后对每个模型进行评估，并将更多的计算资源分配给那些有望成功的技术。糟糕的解决方案会中途退出，而最好的选择则会拔得头筹。

自动调优模型不是盲目地选择“最好的”提供给用户，而是将结果显示为一种分布，可以并排比较不同的方法。研究人员表示，通过这种方式，自动调优模型加快了测试和比较不同建模方法的过程，而不会自动化人类的直觉——这仍然是数据科学过程的一个重要部分。

通过流线化模型选择的过程，该研究团队的目标是让数据科学家能够研究更有影响力的部分。研究人员表示：“我们希望我们的系统能让专家们腾出更多时间来了解数据、问题的形成和特色工程。”

为此，研究人员开源了自动调优模型，让那些想要使用它的企业可以用。他们还添加了条款，允许研究人员整合新的模型选择技术，从而在平台上不断改进。自动调优模型可以在一台机器运行，也可以在本地计算集群或随需应变的云端集群上运行，能同时处理多个数据集和多个用户。

“只用几个步骤，中小型的数据科学团队可以建立和生产模型。”研究人员表示，而这些步骤都不需要进行“假设”。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-01-19，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

本文分享自人工智能快报微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

机器学习

登录后参与评论

0 条评论

热度

自动调优数据科学：新研究使机器学习流线化

自动调优数据科学：新研究使机器学习流线化

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐