前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌MobileNet: 移动和嵌入式设备视觉应用模型,效果超越众主流模型

谷歌MobileNet: 移动和嵌入式设备视觉应用模型,效果超越众主流模型

作者头像
新智元
发布2018-03-28 14:28:41
1.3K0
发布2018-03-28 14:28:41
举报
文章被收录于专栏:新智元新智元

【新智元导读】谷歌团队日前提出了一类被称为 MobileNet 的高效模型,用于移动和嵌入式设备的视觉应用。研究人员多次实验的结果,与 ImageNet 分类任务的其他流行模型相比,MobileNet 显示出很好的性能,同时也证明了 MobileNet 在一系列应用和使用情况中的有效性,包括对象检测,细粒度识别,人脸属性提取,以及大规模地理定位。

论文下载地址:https://arxiv.org/pdf/1704.04861.pdf

摘要

我们提出一类被称为 MobileNet 的高效模型,用于移动和嵌入式设备的视觉应用。 MobileNet 基于一个流线型的架构,该架构使用 depthwise separable convolution 来构建轻量级的深度神经网络。我们引入了两个简单的全局超参数,有效权衡延迟和准确度。这些超参数能让模型搭建者根据问题的限制为其应用选择适当规模的模型。我们在资源和准确率的不同权衡条件下进行了广泛的实验,与 ImageNet 分类任务的其他流行模型相比,我们的模型显示出很好的性能。 然后,我们证明了 MobileNet 在一系列应用和使用情况中的有效性,包括对象检测,细粒度识别,人脸属性提取,以及大规模地理定位。

引言

自 AlexNet 在 ILSVRC 2012 利用深度卷积神经网络赢得 ImageNet 挑战赛以来,卷积神经网络(CNN)已经被计算机视觉应用普遍使用。这方面的应用总的趋势是用更深、更复杂的网络实现更高的精度。但是,考虑到模型大小和速度,精度的提高不一定会让模型更高效。在机器人、无人驾驶汽车、增强现实等许多现实世界的应用中,识别任务需要在计算力有限的平台上实时地进行。

本论文中,我们提出一个高效的网络架构以及一组两个超参数,以构建非常小,低延迟的模型,能够轻松适应移动和嵌入式设备的视觉应用的设计要求。

图1:MobileNet 模型可以应用于各种识别任务,实现高效的设备上智能。

实验

本节中,我们首先调查了 depthwise convolution 的影响,以及通过减小网络的宽度而不是减少层数来选择压缩的模型。然后,我们基于两个超参数来权衡收缩网络:width multiplier 和 resolution multiplier,并将其结果与一些流行模型进行比较。我们的研究证明 MobileNet 可以应用于许多不同的任务。

模型选择

首先,我们比较了 depthwise separable 卷积的 MobileNet 和完全卷积的模型,如表4所示,使用 depthwise separable 卷积的 MobileNet 和完全卷积的相比,在 ImageNet 的精度只降低了1%,但大大节省了 mult-adds 和参数。表5显示,在计算和参数数量相似时,更浅的模型比更小的模型结果精度低3%。

任务1:细粒度识别

我们在 Stanford Dogs 数据集上训练 MobileNet 进行细粒度识别。结果如表10所示,MobileNet 在大大减少计算量和减小模型大小的情况下实现了[18]的结果。

任务2:大规模地理定位

PlaNet 用于确定一张照片拍摄于哪个地理位置的分类问题任务。它的方法是将地球划分为一个网格,用数以百万有地理标记的照片训练卷积神经网络。PlaNet 已经能够成功将各种各样的照片标记地理位置,并在处理相同任务上优于 Im2GPS。

我们使用 MobileNet 架构在相同的数据上重新训练 PlaNet。如表11所示,MobileNet 版本与 PlaNet 相比,规模小了很多,性能只低一点点,但也比 Im2GPS 更优。

任务3:人脸属性提取

MobileNet 的另一个使用情景是压缩具有未知或复杂训练程序的大型系统。在人脸属性分类(face attribute classification)任务中,我们证明了 MobileNet 与 distillation 间的协同关系,这是深度网络的一种知识迁移技术。我们试图简化一个具有7500万超参数和16亿 Mult-Adds 的大型人脸属性分类器。该分类器在一个类似 YFCC100M 的多属性数据集(mult-attribute dataset)上训练。

我们使用 MobileNet 架构提取一个人脸属性分类器(face attribute classifier)。distillation 是通过训练分类器模拟一个更大的模型的输出,而非人工标注标签工作,因此能够从大型(可能是无限大)未标记数据集训练。结合 distillation 的可扩展性和 MobileNet 的简约参数化,终端系统不仅不需要正则化,而且表现出更好的性能,如表12所示。

任务4:物体检测

MobileNet 也可以作为一个有效的基网络(base network)部署在现代物体检测系统上。基于最近在2016 COCO 挑战赛上获胜的工作,我们比较了在 COCO 数据上训练的 MobileNet 进行物体检测的结果。表13列出了在 Faster-RCNN 和 SSD 框架下,MobileNet,VGG 以及 Inception V2 的比较。实验中,SSD 以300的输入分辨率(SSD 300)与分别是300和600输入分辨率的 Faster-RCNN(FasterRCNN 300, Faster-RCNN 600)进行比较。在两个框架下,MobileNet 实现了不输其他两个网络的结果,而且计算的复杂性和模型大小相对更小。

任务5:Face Embeddings

FaceNet 模型是目前 state-of-the-art 的人脸识别模型,它基于 triplet loss 建 face Embedding。为了搭建移动设备上的 FaceNet 模型,通过最小化训练数据上 Facenet 和 MobileNet 输出的方差,我们使用 distillation 来训练。表14列出了非常小的 MobileNet 模型的结果。

结论

我们提出了一个基于 depthwise separable convolutions 的新模型架构,称为 MobileNet。我们分析了一些高效模型的重要设计选择。然后,我们演示了如何使用 width multiplier 和 resolution multiplier,通过权衡大小、延迟时间以及精度,来构建规模更小、速度更快的 MobileNet。我们将不同的 MobileNet 与一些流行的模型进行比较,展示了 MobileNet 在大小、速度和精度上均具有优势。最后,我们通过一系列任务证实了 MobileNet 的广泛有效性。为了该模型更多的被采用和研究,下一步我们计划在 TensorFlow 释放我们的模型。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-05-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档