告别调参,AutoML新书221页免费下载


新智元推荐

来源:专知(Quan_Zhuanzhi)

【新智元导读】近期,由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰写的新书《AUTOML:方法,系统,挑战》221页的草稿版本已经放出,详细讲解了AutoML系统背后的基础知识,以及对当前AutoML系统进行了深入描述。新书将由NIPS 2018出版发行。

震撼!AI WORLD 2018世界人工智能峰会开场视频

近期,由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰写的《AUTOML:方法,系统,挑战》“AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)” 221页的草稿版本已经放出,详细讲解了所有AutoML系统背后的基础知识,以及对当前AutoML系统进行了深入描述,Auto-WEKA、Hyperopt-Sklearn、Auto-sklearn等,最后介绍了AutoML的挑战。作者当前正在完成这本新书的编辑工作,它将由NIPS 2018出版发行。

如果你用过机器学习算法,那一定体验被算法调参支配的恐怖。面对错综复杂的算法参数,算法使用者们往往要花费无尽的黑夜去不断尝试,犹如大海捞针。有的时候加班到深夜,终于找到了一个靠谱的参数组合,然而找到的参数组合真的是最优的么?天知道。

然而在搭建机器学习链路的过程中,往往不止调参这一步耗时耗力。好不容易生成了算法模型,怎么把模型部署成服务供手机、PC这些终端调用也是困扰开发同学的一大难题。有的时候,为了打通这样的链路,要耗费整晚的时间调试不同格式的模型和服务端的关联。

在2018年谷歌云全球NEXT大会(Google CloudNext 18)上,李飞飞宣布,谷歌AutoML Vision进入公共测试版,并推出了两款新的AutoML产品:AutoML Natural LanguageAutoML Translation

这个名为Cloud AutoML的宏大项目浮出水面之时,被业内称为“Google Cloud发展的战略转型”——一直以来面向机器学习人工智能开发者的Google Cloud,这次将服务对象转向了普罗大众。

当时这一已经从单纯的视觉拓展到翻译、视频和自然语言处理领域。

谷歌的宏伟愿景由此可见一斑——你只需在改系统中上传自己的标签数据,大能得到一个训练好的机器学习模型。整个过程,从导入数据到标记到模型训练,都可以通过拖放界面完成。

其实在谷歌发布AutoML前后,机器学习自动化的产品风潮已经吹起:2017年底,微软发布CustomVision.AI,涵盖图像、视频、文本和语音等各个领域。今年 1 月,他们又推出了完全自动化的平台 Microsoft Custom Vision Services(微软定制视觉服务)。

此外,另一个比较火爆的AI自动化产品OneClick.AI 是 2017 年底出现在市场上的一个自动化机器学习(AML)平台,其中既包括传统的算法,也包括深度学习算法。同年,国内也出现了不少相关产品,称能够解放算法工程师,让AI自动化。

AutoML 是什么?

传统上,术语AutoML用于描述模型选择和/或超参数优化的自动化方法。这些方法适用于许多类型的算法,例如随机森林,梯度提升机器(gradient boosting machines),神经网络等。 AutoML领域包括开源AutoML库,研讨会,研究和比赛。初学者常常觉得他们在为模型测试不同的超参数时通常仅凭猜测,而将这部分过程的自动化可以使机器学习变得更加容易。即使是对经验丰富的机器学习从业者而言,这一自动化过程也可以加快他们的速度。

业内现存有许多AutoML库,其中最早出现的是AutoWEKA,它于2013年首次发布,可以自动选择模型和超参数。其他值得注意的AutoML库包括auto-sklearn(将AutoWEKA拓展到了python环境),H2O AutoML和TPOT。 AutoML.org(以前被称为ML4AAD,Machine Learning for AutomatedAlgorithm Design)小组,自2014年以来一直在ICML机器学习学术会议上组织AutoML研讨会。

AutoML 有用吗?

AutoML提供了一种选择模型和优化超参数的方法。它还可以用于获取对于一个问题可能性能的基准结果。这是否意味着数据科学家将被取代? 并非如此,因为我们知道,机器学习从业者还有许多其他事情要做。

对于许多机器学习项目,选择模型不过是构建机器学习产品复杂过程中的一部分。 正如我在上一篇文章中所述,如果参与者不了解项目各个部分是如何相互关联的,那么项目必然会失败。我能想到过程中可能会涉及的30多个不同步骤。我必须要强调,机器学习(特别是深度学习)中最耗时的两个方面是清理数据(这是机器学习中不可或缺的一部分)和训练模型。 虽然AutoML可以帮助选择模型并选择超参数,但重要的是,我们仍然要理清有哪些数据科学的技能是需要的以及那些仍未解决的难题。

我将提出一些替代AutoML方法的建议,以使机器学习从业者在进行最后一步时更有效率。

参考文献:

1.https://yq.aliyun.com/articles/629037

2.http://www.fast.ai/2018/07/16/auto-ml2/#auto-ml

3.https://www.automl.org/book/?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)新书获取地址:

https://www.automl.org/book/

全文目录如下:

第一部分:AutoML方法

本部分包含有关所有AutoML系统背后的基础知识的最新概述。

第1章:超参数优化。由Matthias Feurer和Frank Hutter撰写

第2章:元学习。作者:Joaquin Vanschoren

第3章:神经架构搜索。作者:Thomas Elsken,Jan-Hendrik Metzen和Frank Hutter

第二部分:AutoML系统

本部分包含对各种可用AutoML系统的深入描述,这些系统可用于开箱即用的有效机器学习。

第4章:Auto-WEKA。作者:Lars Kotthoff,Chris Thornton, Holger H. Hoos, Frank Hutter和Kevin Leyton-Brown

第5章:Hyperopt-Sklearn。由Brent Komer和James Bergstra以及Chris Eliasmith撰写

第6章:Auto-sklearn:高效,强大的自动机器学习。作者:MatthiasFeurer,Aaron Klein,Katharina Eggensperger,Jost Tobias Springenberg和Manuel Blum以及Frank Hutter

第7章:自动网络:自动调参的神经网络。由Hector Mendoza和Aaron Klein以及Matthias Feurer和Jost Tobias Springenberg以及Matthias Urban和Michael Burkart以及Max Dippel和Marius Lindauer以及Frank Hutter

第8章:TPOT:自动机器学习的工具。作者:Randal S. Olson和Jason H. Moore

第9章:自动统计学家。ChristianSteinruecken和Emma Smith以及David Janz和James Lloyd以及Zoubin Ghahramani

第三部分:AutoML的挑战

本部分对迄今为止所有的AutoML挑战进行了深入分析。

第10章:分析2015-2018AutoML一系列挑战。由Isabelle Guyon,Lisheng Sun-Hosoya,Marc Boull e,Hugo Jair Escalante,Sergio Escalera以及Zhengying Liu,Damir Jajetic,Bisakha Ray,Mehreen Saeed,Michele Sebag,Alexander Statnikov,Wei-Wei Tu和Evelyne Viegas编写

(本文授权转载自专知:Quan_Zhuanzhi)

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏逆向技术

win32程序之窗口程序,以及消息机制

  通过上一讲.我们了解了窗口其实是绘制出来的.而且是不断绘制的过程. 所以窗口的本质是绘制. 但是我们现在看到的窗口程序.都可以点击关闭按钮. 使用鼠标点击会...

14130
来自专栏Petrichor的专栏

shutdown & reboot & last

23630
来自专栏AI科技大本营的专栏

阿里从来不只属于马云,马云永远属于阿里

9 月 10 日教师节,阿里巴巴集团创始人马云发出题为“教师节快乐”的公开信宣布:一年后的阿里巴巴 20 周年之际,即 2019 年 9 月 10 日,他将不再...

9420
来自专栏Petrichor的专栏

requirements.txt 介绍 & 快捷生成

  requirements.txt 文件 里面记录了当前程序的所有依赖包及其精确版本号。

16010
来自专栏Petrichor的专栏

OJ术语: AC、WA、TLE、OLE、MLE、RE、PE、CE

51410
来自专栏哲学驱动设计

CTO 能力模型 V0.1

最近思考了很多,我在大贲这几年的工作内容。从一开始到现在,伴随着大贲从一二十人,走到了现在的两百多人。我的工作也从一开始的带头冲锋陷阵,逐步转移到了带领产品研发...

27520
来自专栏黑白安全

星号(*)密码查看

24540
来自专栏Petrichor的专栏

主机:各线介绍 & 问题速查表

  在独立组装过八九台主机,遇坑无数后,我写下了《如何自己组装电脑(从配件到整机)来省下一大笔钱》以及《组装台式机遇坑总结》这两篇技术博客。

11810
来自专栏Petrichor的专栏

个人理解:import scipy语句 为什么不能导入 scipy.misc.imsave 模块

1.4K30
来自专栏黑白安全

百度知道隐藏信息查询

可以看到查询账号的百度知道的所有回复。 百度不收录百度知道答主的部份回复,而且删除过了的提问,还是能看到回复。

12010

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励