动态 | 谷歌大脑用强化学习为移动设备量身定做最好最快的CNN模型

AI 科技评论按:卷积神经网络(CNN)被广泛用于图像分类、人脸识别、物体检测以及其他许多任务中。然而,为移动设备设计 CNN 模型是一个有挑战性的问题,因为移动模型需要又小又快,同时还要保持足够的准确率。虽然研究人员们已经花了非常多的时间精力在移动模型的设计和改进上,做出了 MobileNet 和 MobileNetV2 这样的成果,但是人工设计高效的模型始终是很有难度的,其中有许许多多的可能性需要考虑。

受到 AutoML 神经网络架构搜索研究的启发,谷歌大脑团队开始考虑能否通过 AutoML 的力量让移动设备的 CNN 模型设计也更进一步。在谷歌 AI 博客的新博文中,他们介绍了用 AutoML 的思路为移动设备找到更好的网络架构的研究成果。雷锋网 AI 科技评论把博文编译如下。

在谷歌的论文《MnasNet: Platform-Aware Neural Architecture Search for Mobile》中,他们尝试了一种基于强化学习范式的自动神经网络架构搜索方法来设计移动模型。为了应对移动设备的运行速度限制,谷歌大脑的研究人员们专门显式地把运行速度信息也加入了搜索算法的主反馈函数中,这样搜索到的模型就是一个可以在运行速度和识别准确率之间取得良好平衡的模型。通过这样的方法,MnasNet 找到的模型要比目前顶级的人工设计的模型 MobileNetV2 快 1.5 倍,比 NASNet 快 2.4 倍,同时还保持了同样的 ImageNet 首位准确率

以往的网络架构搜索方法中,模型的运行速度通常是借助另一种指标进行参考(比如考虑设备的每秒运算数目),而谷歌大脑此次的方法是通过在给定的上设备上运行模型,直接测量模型的运行时间长短;在这项研究中他们使用的就是自家的 Pixel 手机。通过这种方式,他们可以直接测量出模型在真实环境运行时的具体表现,尤其是,不同型号的移动设备有各自不同的软硬件属性,仅凭运算速度这一项指标无法概括全部情况;为了达到准确率和运行速度之间的最佳平衡,所需的模型架构也会有所不同。

谷歌大脑方法的总体流程主要由三个部分组成:一个基于 RNN 的控制器用于学习模型架构并进行采样,一个训练器用于构建模型并训练模型得到准确率,还有一个推理引擎,它会在真实的手机上通过 TensorFlow Lite 运行模型、测量模型的运行速度。他们把这个任务公式化为一个多目标优化问题,优化过程中得以兼顾高准确率和高运行速度;其中使用的强化学习算法带有一个自定义的反馈函数,可以在不断的探索中找到帕累托最优的解决方案(比如,不断提升模型的准确率,同时并不会让运行速度降低)。

为移动设备自动搜索神经网络架构的总体流程图

对于网络架构搜索过程,为了在搜索的灵活性和搜索空间大小之间取得合适的平衡,谷歌大脑的研究人员们提出了一种新的因子分解层级化搜索空间,它的设计是把一整个卷积网络分解为一系列按顺序连接的模块,然后用一个层级化搜索空间来决定每一个模块中的层的结构。借助这样的做法,他们设计的搜索流程可以允许不同的层使用不同的操作和连接方式。同时,他们也强制要求同一个模块内的所有层都共享同一种结构,相比于普通的每一层独立搜索结构,这种做法也就把搜索空间显著减小了数个数量级。

图示为从新的因子分解层级化搜索空间中采样得到的一个 MnasNet 网络,整个网络架构中可以有多种不同的层

谷歌大脑的研究人员们在 ImageNet 图像分类和 COCO 物体检测任务中测试了这种方法的效果。实验中,这种方法找到的网络在典型的移动设备计算速度限制下达到了准确率的新高。下面图中就展示了 ImageNet 上的结果。

ImageNet 上的首位准确率与推理延迟对比。论文新方法找到的模型标记为 MnasNet

在 ImageNet 上,如果要达到同样的准确率,MnasNet 模型可以比目前顶级的人工设计的模型 MobileNetV2 快 1.5 倍,比 NASNet 快 2.4 倍,其中 NASNet 也是用网络架构搜索找到的。在采用了「压缩-激励」(squeeze-and-excitation)优化之后,谷歌新的 MnasNet + SE 的模型的首位准确率可以达到 76.1%,这已经达到了 ResNet-50 的水平,但却比 ResNet-50 的参数少了 19 倍,乘-加的计算操作数目也减少了 10 倍。在 COCO 上,谷歌的模型家族可以同时在准确率和运行速度上领先 MobileNet,它的准确率已经与 SSD300 模型相当,但所需计算量要少了 35 倍。

谷歌大脑的研究人员们很高兴看到自动搜索得到的模型可以在多个复杂的移动计算机视觉任务中取得顶级的成绩。未来他们计划在搜索空间中集成更多的操作和优化方法供选择,也尝试把它应用到语义分割等更多的移动计算机视觉任务中。

论文地址:https://arxiv.org/abs/1807.11626

via ai.googleblog.com,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-08-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

初学者必读:IBM长文解读人工智能、机器学习和认知计算

选自IBM 机器之心编译 参与:吴攀、黄小天、Nurhachu Null 人工智能的发展曾经经历过几次起起伏伏,近来在深度学习技术的推动下又迎来了一波新的前所...

46170
来自专栏数据科学与人工智能

统计建模和机器学习的区别之我见

最近我多次被问到统计(尤其是统计建模)、机器学习和人工智能之间有何区别。其实这三者之间在目标、技术和算法方面有很多重叠的部分。引起困惑的原因不仅仅是因为这些重叠...

27650
来自专栏华章科技

画个草图生成2K高清视频,这份效果惊艳的研究值得你跑一跑

导读:在图像到图像合成的研究领域热火朝天的当下,英伟达又放大招,联合 MIT CSAIL 开发出了直接视频到视频的转换系统。

12020
来自专栏技术翻译

5分钟理解人工智能与机器学习的区别

人工智能不是一个新名词,它已有数十年历史。从80年代初开始,计算机科学家设计了能够学习和模仿人类行为的算法。

14200
来自专栏机器之心

学界 | 腾讯提出并行贝叶斯在线深度学习框架PBODL:预测广告系统的点击率

选自arXiv 机器之心编译 参与:蒋思源 近日,腾讯发表了一篇介绍并行贝叶斯在线深度学习(PBODL)框架的论文,该论文表示这一框架已经用于腾讯广告系统的点击...

36740
来自专栏AI研习社

零基础搞懂强化学习?这份视频攻略不算迟

本期 Arxiv Insights 将重点介绍机器学习中的子领域“强化学习”,也是机器人最具智能前景的方向之一。

12530
来自专栏专知

腾讯 AI Lab 正式开源PocketFlow 让深度学习放入手机

https://tech.sina.com.cn/d/2018-11-04/doc-ihnknmqw4932015.shtml

13550
来自专栏机器之心

学界 | 中科大潘建伟团队在光量子处理器上成功实现拓扑数据分析

20940
来自专栏钱塘大数据

IBM长文解读人工智能、机器学习和认知计算

人工智能的发展曾经经历过几次起起伏伏,近来在深度学习技术的推动下又迎来了一波新的前所未有的高潮。近日,IBM 官网发表了一篇概述文章,对人工智能技术的发展过程进...

375130
来自专栏计算机视觉战队

深度学习入门误区

定位:深层学习在哪 1、深层学习需要什么? 数学 线性代数:是有关任意维度空间下事物状态和状态变化的规则。 概 率:是用来衡量我们对事物在跨时间后不...

37140

扫码关注云+社区

领取腾讯云代金券