告别调参,AutoML新书发布

【导读】近期,由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰写的《AUTOML:方法,系统,挑战》“AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)” 221页的草稿版本已经放出,详细讲解了所有AutoML系统背后的基础知识,以及对当前AutoML系统进行了深入描述,Auto-WEKA、Hyperopt-Sklearn、Auto-sklearn等,最后介绍了AutoML的挑战。作者当前正在完成这本新书的编辑工作,它将由NIPS 2018出版发行。

如果你用过机器学习算法,那一定体验被算法调参支配的恐怖。面对错综复杂的算法参数,算法使用者们往往要花费无尽的黑夜去不断尝试,犹如大海捞针。有的时候加班到深夜,终于找到了一个靠谱的参数组合,然而找到的参数组合真的是最优的么?天知道。

然而在搭建机器学习链路的过程中,往往不止调参这一步耗时耗力。好不容易生成了算法模型,怎么把模型部署成服务供手机、PC这些终端调用也是困扰开发同学的一大难题。有的时候,为了打通这样的链路,要耗费整晚的时间调试不同格式的模型和服务端的关联。

在2018年谷歌云全球NEXT大会(Google CloudNext 18)上,李飞飞宣布,谷歌AutoML Vision进入公共测试版,并推出了两款新的AutoML产品:AutoML Natural Language和AutoML Translation。

这个名为Cloud AutoML的宏大项目浮出水面之时,被业内称为“Google Cloud发展的战略转型”——一直以来面向机器学习人工智能开发者的Google Cloud,这次将服务对象转向了普罗大众。

当时这一已经从单纯的视觉拓展到翻译、视频和自然语言处理领域。

谷歌的宏伟愿景由此可见一斑——你只需在改系统中上传自己的标签数据,大能得到一个训练好的机器学习模型。整个过程,从导入数据到标记到模型训练,都可以通过拖放界面完成。

其实在谷歌发布AutoML前后,机器学习自动化的产品风潮已经吹起:2017年底,微软发布CustomVision.AI,涵盖图像、视频、文本和语音等各个领域。今年 1 月,他们又推出了完全自动化的平台 Microsoft Custom Vision Services(微软定制视觉服务)。

此外,另一个比较火爆的AI自动化产品OneClick.AI 是 2017 年底出现在市场上的一个自动化机器学习(AML)平台,其中既包括传统的算法,也包括深度学习算法。同年,国内也出现了不少相关产品,称能够解放算法工程师,让AI自动化。

AutoML 是什么?

传统上,术语AutoML用于描述模型选择和/或超参数优化的自动化方法。这些方法适用于许多类型的算法,例如随机森林,梯度提升机器(gradient boosting machines),神经网络等。 AutoML领域包括开源AutoML库,研讨会,研究和比赛。初学者常常觉得他们在为模型测试不同的超参数时通常仅凭猜测,而将这部分过程的自动化可以使机器学习变得更加容易。即使是对经验丰富的机器学习从业者而言,这一自动化过程也可以加快他们的速度。

业内现存有许多AutoML库,其中最早出现的是AutoWEKA,它于2013年首次发布,可以自动选择模型和超参数。其他值得注意的AutoML库包括auto-sklearn(将AutoWEKA拓展到了python环境),H2O AutoML和TPOT。 AutoML.org(以前被称为ML4AAD,Machine Learning for AutomatedAlgorithm Design)小组,自2014年以来一直在ICML机器学习学术会议上组织AutoML研讨会。

AutoML 有用吗?

AutoML提供了一种选择模型和优化超参数的方法。它还可以用于获取对于一个问题可能性能的基准结果。这是否意味着数据科学家将被取代? 并非如此,因为我们知道,机器学习从业者还有许多其他事情要做。

对于许多机器学习项目,选择模型不过是构建机器学习产品复杂过程中的一部分。 正如我在上一篇文章中所述,如果参与者不了解项目各个部分是如何相互关联的,那么项目必然会失败。我能想到过程中可能会涉及的30多个不同步骤。我必须要强调,机器学习(特别是深度学习)中最耗时的两个方面是清理数据(这是机器学习中不可或缺的一部分)和训练模型。 虽然AutoML可以帮助选择模型并选择超参数,但重要的是,我们仍然要理清有哪些数据科学的技能是需要的以及那些仍未解决的难题。

我将提出一些替代AutoML方法的建议,以使机器学习从业者在进行最后一步时更有效率。

参考文献:

1.https://yq.aliyun.com/articles/629037

2.http://www.fast.ai/2018/07/16/auto-ml2/#auto-ml

3.https://www.automl.org/book/?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知)

  • 后台回复“AutoML2018” 就可以获取全书 PDF下载链接~

全文目录如下:

第一部分:AutoML方法

本部分包含有关所有AutoML系统背后的基础知识的最新概述。

第1章:超参数优化。由Matthias Feurer和Frank Hutter撰写

第2章:元学习。作者:Joaquin Vanschoren

第3章:神经架构搜索。作者:Thomas Elsken,Jan-Hendrik Metzen和Frank Hutter

第二部分:AutoML系统

本部分包含对各种可用AutoML系统的深入描述,这些系统可用于开箱即用的有效机器学习。

第4章:Auto-WEKA。作者:Lars Kotthoff,Chris Thornton, Holger H. Hoos, Frank Hutter和Kevin Leyton-Brown

第5章:Hyperopt-Sklearn。由Brent Komer和James Bergstra以及Chris Eliasmith撰写

第6章:Auto-sklearn:高效,强大的自动机器学习。作者:MatthiasFeurer,Aaron Klein,Katharina Eggensperger,Jost Tobias Springenberg和Manuel Blum以及Frank Hutter

第7章:自动网络:自动调参的神经网络。由Hector Mendoza和Aaron Klein以及Matthias Feurer和Jost Tobias Springenberg以及Matthias Urban和Michael Burkart以及Max Dippel和Marius Lindauer以及Frank Hutter

第8章:TPOT:自动机器学习的工具。作者:Randal S. Olson和Jason H. Moore

第9章:自动统计学家。ChristianSteinruecken和Emma Smith以及David Janz和James Lloyd以及Zoubin Ghahramani

第三部分:AutoML的挑战

本部分对迄今为止所有的AutoML挑战进行了深入分析。

第10章:分析2015-2018AutoML一系列挑战。由Isabelle Guyon,Lisheng Sun-Hosoya,Marc Boull e,Hugo Jair Escalante,Sergio Escalera以及Zhengying Liu,Damir Jajetic,Bisakha Ray,Mehreen Saeed,Michele Sebag,Alexander Statnikov,Wei-Wei Tu和Evelyne Viegas编写

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-10-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

17岁高中生都发AI论文了!OpenAI实习生提出分层强化学习新算法

OpenAI 成立近两年,发表了大量研究论文,而这周四的一篇论文却与众不同:其第一作者是名高中生。这位少年英才叫 Kevin Frans,就读于 Henry M...

1043
来自专栏机器之心

17岁高中生都发AI论文了!OpenAI实习生提出分层强化学习新算法

39112
来自专栏量子位

《黑镜》黑科技成真 | 解码脑电信号,AI重构脑中的画面

原作 TIM COLLINS Root 编译自 Dailymail 量子位 出品 | 公众号 QbitAI 上周五,一贯借黑科技刻画人性阴暗面的英剧《黑镜》刚出...

3289
来自专栏CreateAMind

DeepMind声称通过AI为Google全球机房节能15%的新闻有多少可信度?

在DeepMind的官网blog里[3],提到了Google使用DeepMind提供的AI技术,在机房的能耗上获得了大幅的削减,对应于PUE(Power Usa...

1783
来自专栏AI科技大本营的专栏

实战干货 | 这位成功转型机器学习的老炮,想把他多年的经验分享给你

这个年代,不怕你是大牛,就怕大牛还会写文章。 作为AI100智库专家,智亮总是能在口若悬河中,让人深入浅出地学到一堆堆干货,掏心窝子的干货。 多年的实战经验...

39410
来自专栏量子位

Goodfellow“死磕”NIPS:这名字涉及色情和仇日

全称是神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems)。

821
来自专栏机器人网

工业机器人的三头六臂(常用运动学构形)

一、常用运动学构形 1、笛卡尔操作臂 优点:很容易通过计算机控制实现,容易达到高精度。 缺点:妨碍工作, 且占地面积大, 运动速度低, 密封性不好。 ①焊接、...

3347
来自专栏新智元

论文 | 预测 API 从谷歌、亚马逊等大平台盗取机器学习算法

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

3846
来自专栏机器学习之旅

应用:深度学习下的电商商品推荐1.常见算法套路2.item2vec的工程引入3.python代码实现

电商行业中,对于用户的商品推荐一直是一个非常热门而且重要的话题,有很多比较成熟的方法,但是也各有利弊,大致如下:

1572
来自专栏AI科技评论

业界 | 一文看懂谷歌 NYC 算法与优化业务全景(附重点论文下载)

AI 科技评论消息,众所周知,谷歌的研究团队遍布世界各地,而纽约自然也是非常重要的一个地点,尤其是多个谷歌算法研究小组的孕育地。目前,谷歌算法优化团队为谷歌产品...

3586

扫码关注云+社区

领取腾讯云代金券