前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法

CVPR 2020 | 商汤提出基于空间修剪的 NAS 算法

作者头像
AI科技评论
发布2020-04-26 16:03:39
7860
发布2020-04-26 16:03:39
举报
文章被收录于专栏:AI科技评论AI科技评论

本文介绍的是CVPR2020论文《IMPROVING ONE-SHOT NAS BY SUPPRESSING THE POSTERIOR FADING》,作者来自商汤 AutoML 团队。

作者 | 商 汤

编辑 | 丛 末

论文地址:http://xxx.itp.ac.cn/pdf/1910.02543v1

商汤AutoML团队提出的首个基于参数后验分布特性来提高网络机构搜索性能的工作,该工作为解决网络机构搜索中快速代理的有效性问题提供了新的思路。

同时该团队也公开了在ImageNet数据集上的两种不同尺寸的模型,作为模型结构搜索和设计的baseline。相比之前的工作,PC-NAS在结构搜索代理的有效性上有明显的提升。


1

动机

该文章提供了一个分析One-shot参数后验分布的方式,在得出搜索空间中存在的结构越多参数后验分布偏离得越多的结论后,提出了一个基于空间修剪的NAS算法。该工作的研究动机在于:

1. 当前网络结构搜索算法(NAS)已经可以应用应用。其大量的计算量需求成为了当前最大的问题。然而解决计算量问题的方法目前还不完美,使用共享参数的超网做代理成为了目前比较普遍的选择。但这类方法受限于代理和真实情况的偏差。

2. 根据观察和分析,共享参数在训练过程中得到的参数后验与单个模型独立训练的参数分布有一定的规律。接下来将详细介绍该工作的观察和分析。

根据贝叶斯模型选择(以及一定的假设),该工作对共享权重对结构排序带来的影响给出了两个观察:

  • 共享权重的参数分布与不共享的retrain时刻的结构参数分布的关系可以用KL散度来衡量。
  • 可供选择的模型数量上升时,该散度随着结结构数量增加而增加。

2

算法

为了在训练权重共享的同时,减小权重共享的网络结构数量,我们提出一种训练时的空间修剪方法。假设我们目前有一个如上图(a)所示的超网,每一层拥有一个mixop(mixop是n个候选op的合称)于是该超网中总共包含n^层数个不同的结构。为了进行搜索空间的修剪,我们提出了 部分结构池的概念(partialmodel pool)。假设网络结构有L层,部分结构池在整个搜索过程中将会有L个状态(Stage)。每从L-1状态到L状态,部分结构池中的子结构的层数将增长1。

如图(b),此时Stage=2,在部分结构池中有两个层数为2的结构,通过节点编号命名为(1,1)和(0,1)。为了进行至Stage=3,我们会评估2x3个部分结构的潜力,分别是(1,1, 0),(1,1,1),(1,1,2),以及(0,1,0),(0,1,1),(0,1,2)。如何评价部分网络的优劣或者说潜力呢?

为此我们定义 Potential 是在部分结构中为指定的mixop进行随机采样的结构的平均validation set acc。

搜索结果

根据上述搜索过程我们分别在一大一小两个网络空间中进行搜索。小搜索空间中每层包含9种operator,大搜索空间包含每层19种operator。我们把大搜索空间的搜索结果命名为PC-NAS-L,小搜索空间的模型命名为PC-NAS-S。

上表可以看出,在同等的gpu lantency下,我们的PC-NAS可以超过或不低于所有baseline。

在检测任务中可以看验证模型的鲁棒性。

3

代理保序性

那么我们采用的搜索空间收缩算法是否有效的提高了代理的有效性呢?

我们将同一套代码,使用从头至尾采用one-shot方法训练和使用我们的算法训练的shareweights进行了比较。对于最后存在在最后一个stage中的部分结构模型所拓展的结构,还有我们随机在one-shot方法中采的相同数量的结构,这两个群体之间,真实acc和proxyacc之间的相关性。我们可以看到,在最后阶段,相关性比one-shot方法要有一定优势。

References

[1] Georege Adam and JonathanLorraine. Understanding neural architecture search techniques. arXiv preprintarXiv:1904.00438, 2019.

[2] Bowen Baker, Otkrist Gupta,Nikhil Naik, and Ramesh Raskar. Designing neural network architectures usingreinforcement learning. International Conference on Learning Representations,2017a.

[3] Gabriel Bender, Pieter-Jan Kindermans, BarretZoph, Vijay Vasudevan, and Quoc V. Le. Understanding and simplifying one-shotarchitecture search. ICML, 2018.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档