专栏首页人工智能快报自动调优数据科学:新研究使机器学习流线化

自动调优数据科学:新研究使机器学习流线化

一个新的自动化机器学习系统比它的人类同行表现得更好,并且工作速度提高了100倍。

数据科学既是一门学科又是一个应用程序。它最近的飞速发展可以部分归因于其强大的问题解决能力:它可以预测带有欺骗性的信用卡交易;帮助业主弄清楚什么时候发放优惠券可以最大限度的提高顾客反应;或者在学生即将退学的时候,通过预测来促进教育干预。

然而,为了得到这些数据驱动的解决方案,数据科学家必须通过一系列复杂的步骤来跟踪他们的原始数据,每个步骤都需要很多人为决策。整个过程的最后一步需选定一种建模技术,这是至关重要的一步。从神经网络到支持向量机,有数百种技术可供选择,选择最好的一种可能意味着数百万美元的额外收入,或者发现关键医疗设备缺陷和错过这种发现的区别。

近期,麻省理工学院和密歇根州立大学的研究人员在IEEE国际大数据会议上发表了一篇题为“自动调优模型:分布式、协作式、可扩展自动机器学习系统”的论文。该论文提出了一种新的系统,可以让模型选择步骤自动化,甚至可以提高人类的表现。该系统被称为自动调优模型(Auto-Tuned Model,ATM),它利用云计算对建模选项进行高通量的搜索,为特定的问题找到最佳的建模技术。它还对模型的超参数进行了优化(对算法进行优化),这对性能有实质性的影响。自动调优模型现在作为开源平台供企业使用。

为了比较自动调优模型与人类的表现,研究人员用协作众包平台openml.org的用户对系统进行测试。在这个平台上,数据科学家合作解决问题,以彼此的工作为基础寻找最佳解决方案。自动调优模型分析了来自该平台的47个数据集,所提供的解决方案比当时人类提供的解决方案要好30%。如果它的表现无法比人类好,它也与人类水平非常接近,而且至关重要的是,它的工作速度比人类快得多。开放的机器学习用户平均需要100天来提供一个近乎最优的解决方案,而自动调优模型已经可以在不到一天的时间内给出一个答案。

这种速度和准确度为经常被“假设”所困扰的数据科学家提供了急需的平和心态。“数据科学家有很多种选择。”这篇论文的作者、美国密歇根州立大学(Michigan State University)计算机科学与工程学系教授说,“如果一位数据科学家选择支持向量机作为建模技术,那么,总是萦绕在她脑海里的问题就是:神经网络或不同的模型是否会带来更高的准确性?”

在过去的几年里,模型选择/调优问题已经成为机器学习一个新的子领域自动机器学习(Auto-ML)的焦点。自动机器学习解决方案旨在为数据科学家提供具体机器学习任务的最佳模型。只存在一个问题:相互竞争的自动机器学习方法会产生不同的结果,而且它们的方法通常不透明。换句话说,在寻求解决一个选择问题的同时,这个共同体创造了另一个更加复杂的问题。“‘假设’问题仍然存在。”该论文的资深作者、麻省理工学院信息和决策系统实验室(LIDS)的首席研究科学家说,“问题只是变成了‘如果我们使用不同的自动机器学习方法呢?’”

自动调优模型系统的工作方式不同,它使用随需应变的云计算,在一夜之间生成并比较数百个(甚至数千个)模型。为了搜索技术,研究人员采用了智能选择机制。该系统对数千个模型进行并行测试,然后对每个模型进行评估,并将更多的计算资源分配给那些有望成功的技术。糟糕的解决方案会中途退出,而最好的选择则会拔得头筹。

自动调优模型不是盲目地选择“最好的”提供给用户,而是将结果显示为一种分布,可以并排比较不同的方法。研究人员表示,通过这种方式,自动调优模型加快了测试和比较不同建模方法的过程,而不会自动化人类的直觉——这仍然是数据科学过程的一个重要部分。

通过流线化模型选择的过程,该研究团队的目标是让数据科学家能够研究更有影响力的部分。研究人员表示:“我们希望我们的系统能让专家们腾出更多时间来了解数据、问题的形成和特色工程。”

为此,研究人员开源了自动调优模型,让那些想要使用它的企业可以用。他们还添加了条款,允许研究人员整合新的模型选择技术,从而在平台上不断改进。自动调优模型可以在一台机器运行,也可以在本地计算集群或随需应变的云端集群上运行,能同时处理多个数据集和多个用户。

“只用几个步骤,中小型的数据科学团队可以建立和生产模型。”研究人员表示,而这些步骤都不需要进行“假设”。

本文分享自微信公众号 - 人工智能快报(AI_News),作者:人工智能快报

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 人工智能技术帮助科学家探索重大疾病

    美国艾伦细胞科学研究所(Allen Institute for CellScience)的科研人员利用人工智能技术开发了一种人类活体细胞3D模型,并向外部人员免...

    人工智能快报
  • 夏普推出智能机器人手机

    据投资资讯网站VentureBeat报道,日本制造公司夏普推出了一款小型机器人手机。此款机器人手机的首次亮相是在2015年的日本电子展(CEATEC)上,此次正...

    人工智能快报
  • AI系统有助突破医药研发瓶颈

    加拿大滑铁卢大学的AI科研人员开发出了一套AI系统,有助于加速新药研发、减少所需时间和费用。

    人工智能快报
  • 第三课:把tensorflow,模型和测试数据导入Android工程

    关于Android项目的创建这里就不做赘述了,我们直接进入主题,看下如何把机器学习库和训练的模型导入一个安卓应用中。 导入 Inference Interfac...

    刘盼
  • 前端切图:一句代码实现返回顶部

    王小婷
  • Python - with open()、os.open()、open()的详细使用

    在磁盘上读写文件的功能都是由操作系统提供的,现代操作系统不允许普通的程序直接操作磁盘。

    小菠萝测试笔记
  • 在自己的数据集上训练TensorFlow更快的R-CNN对象检测模型

    计算机视觉正在彻底改变医学成像。算法正在帮助医生识别可能错过的十分之一的癌症患者。甚至有早期迹象表明胸部扫描可有助于COVID-19的识别,这可能有助于确定哪些...

    代码医生工作室
  • 数字化转型案例:Club Factory如何用云计算服务一亿全球用户群

    Club Factory由中国公司嘉云数据于2016年创建,是一家时尚、美容和生活方式的电子商务商店,总部位于浙江杭州。其产品有三个特点:非品牌、时尚和低价。为...

    大数据在线
  • Vue生命周期-手动挂载理解

    浏览器缓存,试了下确实一定概率可以显示,但是,哪怕浏览器不行,我们也只能从自己的代码里修改来配合它,兼容它。

    ydymz
  • 如何vs升级后10和12都能同时兼容

    升级办法:先复制vs2008版本的解决方案文件。升级2012后,再将文件复制到目录里面即可。注意升级过程中产生的升级文件(UpgradeLog文件)不能删除!

    跟着阿笨一起玩NET

扫码关注云+社区

领取腾讯云代金券