前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >神经网络架构搜索——可微分搜索(Latency-DARTS)​

神经网络架构搜索——可微分搜索(Latency-DARTS)​

作者头像
AI异构
发布2020-07-29 15:21:50
1K0
发布2020-07-29 15:21:50
举报
文章被收录于专栏:AI异构AI异构

Latency-DARTS

本文为华为诺亚的NAS工作,针对DARTS搜索出网络结构往往对硬件不友好的问题,本文在优化中加入可微分的时延损失项,使搜索过程可以在精度和时延之间进行平衡系数的权衡

  • 论文题目:Latency-Aware Differentiable Neural Architecture Search
  • 论文地址:https://arxiv.org/abs/2001.06392

摘要

可微分的神经架构搜索方法在自动机器学习中盛行,主要是由于其搜索成本低,设计搜索空间灵活。然而,这些方法在优化网络方面存在困难,因此搜索到的网络往往对硬件不友好。本文针对这一问题,在优化中加入可微分的时延损失项,使搜索过程可以在精度和时延之间进行平衡系数的权衡。延迟预测模块LPM)是对每个网络架构进行编码,并将其输入到一个多层回归器中,通过随机抽样收集训练数据,并在硬件上对其进行评估。本文在NVIDIA Tesla-P100 GPU上评估了该方法。在100K采样架构(需要几个小时)的情况下,延迟预测模块的相对误差低于10%。嵌入延迟预测模块,搜索方法可以减少20%的延迟,同时保留了精度。本文的方法还能简洁的移植到广泛的硬件平台上,或用于优化其他不可微的因素,如功耗。

动机

本文从神经网络架构延迟的角度出发,对DARTS的搜索进行了优化。DARTS工作对网络延时的对等指标定义为FLOPs,但是FLOPs仅仅是对模型的计算复杂度实现了量化,并不能完全对等网络的推理延迟。从硬件部署角度考虑,网络模型的推理速度受硬件加速设备,部署框架的优化效果,输入输出数据的延迟等多方面的影响。如下图所示:

根据上图的实测结果,我们可以清晰的发现,在相同的 FLOPs 下,不同的网络结构对应的实际网络延迟也有明显的差异。比如,在 400M FLOPs 的网络架构中,高延迟能达到 25ms ,而低延迟仅需要 17.1ms。那么,如何在保证模型精度,FLOPs 的前提下尽量的做到低延迟呢?

方法

Latency-DARTS架构示意图

延迟预测模块(LPM)
延时预测结果

这里本文使用测试集上预测与 ground-truth 之间的绝对误差和相对误差来评估 LPM 。如下表所示:

延时预测结果

随着训练数据量的增加,测试误差也相应下降。另一方面,当训练数据量大于40K时,精度的提高变得微乎其微。在训练数据量为80K的情况下,延迟预测结果令人满意,绝对误差小于2ms,相对误差小于10%。在根据搜索实验,这样的精度足以找到高效的架构。

可微分时延损失

实验

CIFAR

CIFAR10实验结果

ImageNet

ImageNet实验结果

总结

本文提出了一种在复杂搜索空间中预测架构延迟的可微分方法,并将该模块融入到可微分架构搜索中。这使得我们可以控制识别精度和推理速度的平衡。本文将延迟预测模块设计成一个多层回归网络,并通过从预设的搜索空间中抽取一些架构进行训练。该流水线可以很容易地移植到广泛的硬件/软件配置中,并有助于设计机器友好的架构。

但是,对于不同的硬件架构和软件部署平台,需要构造不同的数据集才能得到准确的预测结果,因此,本文提出的推理延迟预测模块严重依赖数据集的构建

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI异构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Latency-DARTS
    • 摘要
      • 动机
        • 方法
          • 延迟预测模块(LPM)
          • 可微分时延损失
        • 实验
          • CIFAR
          • ImageNet
        • 总结
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档