专栏首页小数志自动化机器学习(AutoML)入门简介

自动化机器学习(AutoML)入门简介

导读

近期在学习研究一些关于自动化机器学习方面的论文,本文作为该系列的第一篇文章,就AutoML的一些基本概念和现状进行简单分享,权当抱砖引玉。

图片源自《Taking Human out of Learning Applications: A Survey on Automated Machine Learning》2018

在算法行业有这样一句话,大意是说80%的时间用在做数据清洗和特征工程,仅有20%的时间用来做算法建模,其核心是在说明数据和特征所占比重之大。与此同时,越来越多的数据从业者们也希望能够降低机器学习的入门门槛,尤其是降低对特定领域的业务经验要求、算法调参经验等。基于这一背景,AutoML应运而生。

如何理解AutoML呢?从字面意思来看,AutoML即为Auto+ML,是自动化+机器学习两个学科的结合体;从技术角度来说,则是泛指在机器学习各阶段流程中有一个或多个阶段采取自动化而无需人工参与的实现方案。例如在本文开篇引用的AutoML经典图例中:其覆盖了特征工程(Feature Engineering)、模型选择(Model Selection)、算法选择(Algorithm Selection)以及模型评估(Model Evaluation)4个典型阶段,而仅有问题定义、数据准备和模型部署这三部分工作交由人工来实现。

AutoML,与其说是一项技术,不如称之为一种思想:即将一门学科的技术(自动化)引入另一门学科(机器学习)的思想。所以从某种角度来说,AutoML本不是什么新鲜技术,也并见得需要创新性突破可言。那是什么促使其诞生并盛行于当下呢?原因主要有三:

  • 数据从业者的懒惰。俗话说,懒惰是人类进步的源动力,这一点在AutoML这件事上体现的淋漓尽致。因为数据从业者们渴望从繁杂冗长的数据清洗、特征工程以及调参炼丹的无趣过程中解脱出来,自然而然的想法就是希望这一过程能够Auto起来!当然,这一过程也可正面解读为对技术精进的不懈追求……
  • 对降低ML入门门槛的期盼。毫无疑问,以机器学习为代表的AI行业是当下最热门技术之一,也着实在很多场景解决了不少工程化的问题,所以越来越多的数据从业者投身其中。但并不是每名算法工程师或者数据科学家都有充分的业务经验和炼丹技巧,所以更多人是希望能够降低这一入门门槛,简化机器学习建模流程。
  • 足够的数据体量和日益提升的算法算力。客观来讲,没有足够的数据量谈Auto是不切实际的,因为不足以学到足够的知识以实现Auto;而另一方面,AutoML的实现过程其实充满了大量的迭代运算,所以完成单次的AutoML意味着约等于成百上千次的单次ML,其时间成本不得不成为AutoML领域的一个不容忽视的约束条件,而解决这一问题则一般需依赖优秀的算法和充足的算力。

上面介绍了AutoML的产生原因,其实是回答了Why的问题。与Why相对应的一般就是What和How的问题。那么AutoML是What呢?当然,这里不打算用开篇图例中的模块来讲解What的问题,而是用人话来说说AutoML当下的几个热点:

  • 模型选择(Model Selection)以及超参优化(HPO)。这两个阶段可能是AutoML里最早涉及和最为关键的技术,早期的AutoML产品/工具其实也是主攻这两个方向,例如Auto-WEKA和Auto-Sklearn就都是以这两方面的实现为主。其中模型选择其实主要还是枚举为主,即将常用的模型逐一尝试而后选出最好的模型或其组合。而HPO则相当于是加强版的GridSearch,都是解决最优超参数的问题,只是解决的算法不同罢了,其中基于贝叶斯的超参优化是主流。
  • 自动化特征工程(AutoFE)。AutoFE是解决原始特征表达信息不充分或者存在冗余的问题,相应的解决方案就是特征衍生+特征选择,而AutoFE一般是考虑这两个过程的联合实现抑或加一些创新的优化设计。
  • 元学习(Meta Learning)和迁移学习(Transfer Learning)。前面提到的模型选择,虽然多数产品都是对候选模型进行枚举尝试,但也有更为优秀的实现方案,那就是元学习。例如Auto-Sklearn中其实是集成了元学习的功能,在处理新的数据集学习任务时可以借鉴历史任务而会自动选择更为可能得到较好性能的模型,这个过程也称之为warn-start。如果说元学习适用于经典机器学习算法,那么迁移学习其实则主要适用于深度学习技术:通过对历史任务的学习经验对后续类似场景的神经网络架构设计提供一定的先验信息。
  • 神经网络架构搜索(NAS)。同样是针对深度学习的神经网络架构,当没有任何经验可供迁移时,那么如何设计和构建神经网络架构就是一个需要慎重考虑的问题。对此的解决方案即为NAS——neural architecture search!

简单说完Why和What的问题之后,介绍How的问题就不那么简单了。这本身是一个需要持续理解和不断精进的过程,如果现在来说也只能描述的主流产品一级:Auto-WEKA、Hyperopt-Sklearn、Auto-Sklearn、TPOT、H2O、AutoGluon……这份清单其实可以罗列几十种,遍布国内外。

当然,罗列是一回事,讲得清楚用得娴熟则又是另一回事了……

本文分享自微信公众号 - 小数志(Datazhi),作者:luanhz

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-07-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 叮~AutoML自动化机器学习入门指南,来了

    之前的工作中也有多少接触过这个AutoML(Automated Machine Learning)的概念,简单来说就是把模型开发的标准过程模块化,都交给一些自动...

    Sam Gor
  • 自动机器学习之Auto-Keras与AutoML入门指南

    自动机器学习是现在非常流行的一个概念,我们在进行深度学习的时候需要调整的典型超参数包括优化算法(SGD,Adam等),学习速率和学习速率调度以及正则化等。根据数...

    小草AI
  • Google 发布 Cloud AutoML 降低机器学习门槛,调参民工前景堪忧

    翻译 | AI 科技大本营(rgznai100) 参与 | 刘畅、林椿眄 编辑 | 周翔、Donna 本周三,Google 发布了最新的 Cloud Auto...

    AI科技大本营
  • Google 发布 Cloud AutoML 降低机器学习门槛,调参民工前景堪忧

    本周三,Google 发布了最新的 Cloud AutoML 技术,该技术能使企业开发者们通过 Google Cloud 平台自动创建机器学习模型。谷歌首先将发...

    iCDO互联网数据官
  • 让AI学习AI:自动化机器学习的概述、发展和研究意义

    传统的人工智能旨在使用机器帮助人类完成特定的任务,随着人工智能的发展,在计算机领域衍生出了机器学习。机器学习旨在通过计算机程序完成对数据的分析,从而得到对世界上...

    华章科技
  • 【机器学习入门系列】简介

    本文深入浅出地介绍了什么是机器学习以及机器学习所研究的内容与机器学习的三大步骤;并举例深度学习、有监督学习、半监督学习、迁移学习、无监督学习、结构化学习、增强学...

    张耀琦
  • 机器学习入门书籍简介

    在AIclub看到一篇机器学习入门的文章,回想自己磕磕碰碰走过的弯路,颇有感触,因此对自己从懵懂到稍稍入门过程中看过的教程做一个简单的介绍,希望帮到后来人。

    张红林
  • AutoML研究综述:让AI学习设计AI

    选自 arXiv 作者:Marc-André Zöller、Marco F. Huber

    机器之心
  • 谷歌重磅:不用写代码也能建模调参,Cloud AutoML要实现全民玩AI

    大数据文摘
  • 【全自动机器学习】ML 工程师屠龙利器,一键接收训练好的模型

    【新智元导读】机器学习系统有大量的超参数,在应用中需要依赖领域专家知识,并且有繁重的人工调参任务。现在,有一项工作希望让这些过程自动化,只需一个按钮,就能让你得...

    新智元
  • 微软发布ML.NET 1.0

    原文地址:https://devblogs.microsoft.com/dotnet/announcing-ml-net-1-0/

    张善友
  • 别慌,谷歌说AutoML无意取代工程师,AI人才缺口仍然巨大

    李根 发自 国贸大酒店 量子位 报道 | 公众号 QbitAI ? Google云的工程师们正让其他(和未来的)AI工程师们瑟瑟发抖? 1月18日,Cloud...

    量子位
  • AutoML:机器学习的下一波浪潮

    AI 前线导读: 人工智能和机器学习仍然是一个进入门槛较高的领域,需要专业的知识和资源,很少有公司可以自己承担。—— 李飞飞自动机器学习(AutoML)是将机器...

    用户7886150
  • 业界 | 李飞飞、李佳宣布发布Cloud AutoML:AI技术「飞入寻常百姓家」

    机器之心
  • AutoML与机器学习领域的理解

    Featuretools如你所言能够自动完成特征工程,它属于AutoML范畴,接下来我还是主要谈AutoML1吧。由于机器学习应用高门槛和应用范围的广阔,所以很...

    流川疯
  • AutoML 和神经架构搜索初探

    AI 研习社按:本文由「图普科技」编译自 An Opinionated Introduction to AutoML and Neural Architectu...

    AI研习社
  • 干货 | AutoML 和神经架构搜索初探

    AI 科技评论按:本文由「图普科技」编译自 An Opinionated Introduction to AutoML and Neural Architect...

    AI科技评论
  • 一文看懂深度学习新王者「AutoML」:是什么、怎么用、未来如何发展?

    技术博客TowardDataScience有一篇文章,就全面介绍了关于AutoML和NAS你需要了解的一切。

    量子位
  • NeurIPS 2018 AutoML挑战赛落幕:印度团队第一,清华第二

    近日,由第四范式、ChaLearn、微软和阿卡迪亚大学联合举办的《The 3rd AutoML Challenge: AutoML for Lifelong M...

    机器之心

扫码关注云+社区

领取腾讯云代金券