解读NeurIPS-AutoDL 总决赛冠军解决方案，代码已开源

机器之心

发布于 2020-04-21 18:05:26

8770

发布于 2020-04-21 18:05:26

文章被收录于专栏：机器之心

机器之心发布

作者：深度赋智

由 NeurIPS 举办历时四个月的 AutoDL 2019-2020（自动深度学习) 系列竞赛总决赛在 4 月 18 日落下帷幕，来自深度赋智的 DeepWisdom 团队荣获冠军。本文介绍了来自冠军团队的解决方案。

开源代码链接：https://github.com/DeepWisdom/AutoDL
注：开源代码基于 Full-AutoML 系统自动设计出的共性解并加以改造

图 1：AutoDL2019-2020 挑战赛官方通告

背景

NeurIPS，全称神经信息处理系统大会 (Conference and Workshop on Neural Information Processing Systems)，是全球最受瞩目的 AI、机器学习顶级学术会议之一。历来，NeurIPS 竞赛单元都被誉为 AI 界的华山论剑，汇聚了全球 AI 顶尖力量决战技术之巅。

深度学习 DeepLearning 近年来飞速发展，在多个领域中获得了显著效果提升，但是深度学习技术实现仍然需要大量的专家经验和人工成本，因此自动深度学习系统 AutoDL 受到了学术及工业界的广泛关注，AutoDL 对快速推动落地应用和理论发展都具有重大意义。

此次 AutoDL Challenge 竞赛堪称史上最难，旨在让参赛选手设计开发出能解决包括图像、视频、语音、文本和结构化表格数据等多模态、多领域的全自动多标签分类系统。

竞赛吸引了美国、德国、瑞士、日本、韩国等全球多地队伍，来自包括清华大学、北京大学、南京大学、卡内基梅隆大学、首尔大学、弗莱堡大学、汉诺威大学等国内外著名前沿科研院校，以及 Google、微软、阿里、腾讯、浪潮等国际一流公司，参赛队伍总计进行了超过 2600 余次提交。

竞赛及任务

数据

挑战赛分为两个阶段，包括 Feedback 反馈阶段、Final 最终阶段。在反馈阶段，参赛选手基于 24 个训练数据集，离线开发自己的 AutoDL 程序，实现训练数据处理、模型结构设计、参数调校等过程。然后将自己的 AutoDL 程序代码上传到比赛平台上，通过另外 5 个线上私有数据集测试，得到程序性能的即时反馈。在最终阶段，参赛选手的 AutoDL 程序在无任何人工干预的前提下，通过 10 个私有数据集进行评估。最终阶段多轮评估的平均排名将决定获胜者。

评估

竞赛采用 ALC(Area under ROC Learning Curve) 作为评估指标，在每个时间戳 t 计算最近一次预测的归一化后 AUC 分数作为坐标纵轴，坐标横轴归一化采用以下方式计算：

ALC 计算方式：

该评估方式对方案的快速性、准确性提出了极其严格的要求，对现实场景中低成本、快速应用、高准确率等要求进行了较好模拟。

挑战

竞赛对参赛方案提出了一系列挑战，包括且不限于：

如何在不同的数据中自动发现有效信息？
如何为不同领域的任务自动提取有用特征？
如何自动处理不同领域的数据？
如何自动设计有效的神经网络结构？
如何构建和自动调整预先训练的模型？
如何自动高效地选择恰当的机器学习模型与超参数？
如何提高解决方案的通用性？即如何保证解决方案在未知任务中的适用性？
如何控制计算和内存成本？

竞赛结果

深度赋智 DeepWisdom 队伍提交方案在 Feedback 阶段和 Final 阶段取得了双项总分第一的成绩！以两阶段平均排名 1.2 和 1.8 的分数稳定且大幅领先所有队伍。其中 Feedback 阶段在 5 个盲测数据集获得了 4 项第一，Final 阶段 10 个盲测数据集获得了 7 项第一。

图 2：Feedback-phase Leaderboard 榜单

图 3：Final-phase Leaderboard 榜单

图 4：Final-phase Leaderboard 可视化

核心技术解析

图 5：AutoDL 竞赛工作流

深度赋智的核心技术在于其独立研发的 Fully Automatic Machine Learning（后文简称 Full-AutoML / 全自动机器学习）系统，这套系统量化了 AI 生产的所有环节，可以全自动、端到端地生产全流程 AI，摆脱了以往的 AI 设计需要诸多人类经验、难以快速落地的约束。

以往基于人类 AI 工程师的简单 AI 生产过程需要 3-6 个月，复杂 AI 生产过程需要 1-2 年，而 Full-AutoML 接入数据之后最短几十秒就可以构建出一套近似最优的端到端 AI，并且随着线上反馈数据，可以不断对 AI 持续优化。

Full-AutoML 具体是怎么实现的？我们展开来讲：

一名人类 AI 工程师需要在单个领域进行持续数年的学习、摸索，随着接触数据集的增多、掌握技巧的增多、对整体流程的积累，才能在单个领域下获得较好效果。
与人类 AI 工程师类似，Full-AutoML 需要接触较多的学习任务，以掌握在不同任务上的共性与特异性技巧。其中 MetaAI 子系统模拟了人类 AI 工程师的学习过程，通过观察已有任务的数据流形与策略效果，以进行全自动的探索性优化。经过观察，MetaAI 可以很好地总结不同任务知识，将原本耗时数年的 AI 构建过程缩短到最短数十秒。

图 6：DeepWisdom MetaAI for AutoDL

进一步的，这套系统包含自动数据探索、自动数据处理、自动特征工程、自动模型搜索、自动模型设计、自动模型压缩、自动超参优化、自动集成等多项核心组件，内含 Few-shot Learning 小样本学习、Weakly supervised learning 弱监督学习、Transfer Learning 迁移学习、Ensemble Learning 集成学习等多类特性。

图 7：深度赋智 AutoML

值得注意的是，深度赋智产品矩阵已开发的自动内容理解系统，能较好处理本次竞赛涉及的包含结构化和非结构化数据分类任务，该系统已经在智能搜索、智能推荐、智能决策等场景发挥了核心作用。此外，核心产品自动信息分发系统 AutoDist（包含自动搜索系统 AutoSearch、自动推荐系统 AutoRecsys）以及自动决策系统 AutoTables 已为若干客户带来显著业绩提升，可以为交易平台提升 40%-60% 的核心效果，助力平台节本提效。深度赋智将在 MetaAI 和 Full-AutoML 道路上继续探索，为更多企业客户快速节本提效、创造利润。

深度赋智团队已在若干顶级国际 AI 竞赛中获得诸多荣誉，包括 KDD 2019 AutoML/ACML 2019 AutoSpeech/PKDD 2019 AutoCV2/ACML 2019 AutoWSL 等竞赛的单项/总分第一。

深度赋智及其学术团队在协同学习/NAS/深度强化学习等领域的 100 余篇相关论文发表于 KDD、PAMI、NIPS、CVPR、ACL、AAAI、IJCAI、SIGIR、MM 等顶会顶刊上，构成了 Full-AutoML 的核心积累。

深度赋智，致力于用 AI 制作 AI，让每家企业具有开箱即用的 AI 能力。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-04-19，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习