在前面的一篇文章中介绍了轻量级的网络架构mobilenet v1,本次续接第一篇,介绍V1的升级版本,mobilenet v2。
论文标题:Model Rubik's Cube:Twisting Resolution, Depth and Width for TinyNets(NeurIPS 2020)
MobileNetV3是Google继MobileNet V1和MobileNet V2后的新作,主要使用了网络搜索算法(用NAS通过优化每个网络块来搜索全局网络结构,用NetAdapt算法搜索每个层的滤波器数量),同时在MobileNet V2网络结构基础上进行改进,并引入了SE模块(我们已经讲过了SENet,【cv中的Attention机制】最简单最易实现的SE模块)和提出了H-Swish激活函数。论文原文见附录。
文章结构 本文的第一部分关注检测模型的头部部分。对与每张图片,深度网络其实是通过级联的映射获得了在某一流形上的一个表征,这个表征相比原图片更有计算机视角下的语义性。例如,使用Softmax作为损失函数的分类网络,最后一层获得的张量常常展现出成簇的分布。深度网络因分布式表示带来的指数级增益,拥有远超其他机器学习模型的表示能力,近年来,有不少致力于对深度网络习得特征进行可视化的工作,为研究者提供了部分有直观意义的感知,如浅层学习线条纹理,深层学习物体轮廓。然而,现阶段的深度模型仍然是一个灰盒,缺乏有效的概念去描
zhuanlan.zhihu.com/c_1113861154916601856
在现代深度学习算法研究中,通用的骨干网+特定任务网络head成为一种标准的设计模式。比如VGG + 检测Head,或者inception + 分割Head。
今天跟大家分享一篇前天新出的论文《ThunderNet: Towards Real-time Generic Object Detection》,来自国防科大与旷视的研究团队(孙剑老师在列)提出了首个能够在移动端ARM芯片实时运行的两阶段通用目标检测算法ThunderNet(寓意像Thunder雷一样快^_^),并称该算法后续将开源!
论文名称:MobileDets: Searching for Object Detection Architectures for Mobile Accelerators
半个月前 Amusi 整理了 目标检测(Object Detection)较为值得关注的论文:
【6】ReBiF:残差双融合特征金字塔网络,用于精确的Single-shot目标检测
Inverted bottleneck layers, IBN已成为终端设备SOTA目标检测方法的主要模块。而在这篇文章里,作者通过重新分析研究终端芯片加速下的常规卷积而对“IBN主导的网络架构是否最优”提出了质疑。作者通过将常规卷积纳入搜索空间取得了延迟-精度均衡下的性能提升,得到了一类目标检测模型:MobileDets。在COCO目标检测任务上,基于同等终端CPU推理延迟,MobileDets以1.7mAP性能优于MobileNetV3+SSDLite,以1.9mAP性能优于MobileNetV2+SSDLite;在EdgeTPU平台上,以3.7mAP性能优于MobileNetV2+SSDLite且推理更快;在DSP平台上,以3.4mAP性能优于MobileNetV2+SSDLite且推理更快。与此同时,在不采用FPN的情况下,在终端CPU平台,MobileDets取得了媲美MnasFPN的性能;在EdgeTPU与DSP平台具有更优的mAP指标,同时推理速度快2倍。
尽管R-CNN是物体检测的鼻祖,但其实最成熟投入使用的是faster-RCNN,而且在pytorch的torchvision内置了faster-RCNN模型,当然还内置了mask-RCNN,ssd等。既然已经内置了模型,而且考虑到代码的复杂度,我们也无需再重复制造轮子,但对模型本身还是需要了解一下其原理和过程。
为了寻找到更优的FPN,论文中提出了利用神经架构搜索(NAS),NAS在给定的搜索空间中选择最佳的模型结构训练控制器。这个过程使用的了强化学习技术,控制器用子模型在搜索空间中的精度作为奖励信号来更新参数。因此通过反复试验,控制器不断的学习,最终会生成更好的结构。
随着在移动设备上运行深度网络可以提升用户体验,而且允许随时随地可以访问,并且在安全性、隐私和能耗方面相对云端计算具有优势,边缘计算的需求越来越大。
构建在深度卷积上的Inverted bottleneck layers已经成为移动设备上最先进目标检测模型的主要构建模块。在这项工作中,作者通过回顾常规卷积的实用性,研究了这种设计模式在广泛的移动加速器上的最优性。
随着端侧算力日益增长,以及模型小型化方案日趋成熟,使得高精度的深度学习模型在移动端、嵌入式等终端设备上流畅运行成为可能。
因为神经网络本质上执行大量计算,所以它们在移动设备上尽可能高效地运行是很重要的。一个高效的模型能够在实时视频上获得实时结果 - 无需耗尽电池或使手机变热,就可以在其上煎鸡蛋。
随着端侧算力日益增长,以及模型小型化方案日趋成熟,使得高精度的深度学习模型在移动端、嵌入式等终端设备上流畅运行成为可能。然而将深度学习融合到终端设备上依旧面临平衡复杂神经网络结构的精度和设备性能约束的挑战,往往需要模型开发者在深入理解模型结构的基础上,各种调参并进行细致全面的优化才能达到理想的效果。
作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回顾早期的经典工作,并对较新的趋势做一个全景式的介绍,帮助读者对这一领域建立基本的认识。(营长注:因本文篇幅较长,营长将其分为上(点击查看)、下两部分。) 导言:目标检测的任务表述 如何从图像中解析出可供计算机理解的信息,是机器视觉的中心问题。深度学习模型由于其强大的表示能力,加之数据量的积累和计算力的进步,成为机器视觉的热点研究方向。 那么,如何
作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回顾早期的经典工作,并对较新的趋势做一个全景
作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回顾早期的经典工作,并对较新的趋势做一个全景式的介绍,帮助读者对这一领域建立基本的认识。(因本文篇幅较长,营长将其分为上(点击查看)、下两部分。) 导言:目标检测的任务表述 如何从图像中解析出可供计算机理解的信息,是机器视觉的中心问题。深度学习模型由于其强大的表示能力,加之数据量的积累和计算力的进步,成为机器视觉的热点研究方向。 那么,如何理解一张图片?
首先鸣谢 @hokmund、@ElectronicElephant 等社区同学为本文提及的技术点做出的卓越贡献 !期待更多社区伙伴加入算法优化工作中来~
自3.3版本开始,OpenCV加入了对深度神经网络推理运算的支持模块-DNN模块,它支持多种深度学习框架的模型,如Tensorflow、Caffe、Torch、Darknet,以及ONNX格式的模型。
【新智元导读】神经结构自动搜索是最近的研究热点。谷歌大脑团队最新提出在一种在移动端自动设计CNN模型的新方法,用更少的算力,更快、更好地实现了神经网络结构的自动搜索。
arXiv: https://arxiv.org/pdf/2110.02178.pdf
机器之心报道 机器之心编辑部 在这篇论文中,来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transformer——MobileViT。该网络在 ImageNet-1k 数据集上实现了 78.4% 的最佳精度,比 MobileNetv3 还要高 3.2%,而且训练方法简单。目前,该论文已被 ICLR 2022 接收。 论文链接:https://arxiv.org/pdf/2110.02178.pdf 代码链接:https://github.com/apple/ml-cvnets 轻量级卷积神经网
新智元报道 来源:research.googleblog.com 作者:Mark Sandler and Andrew Howard 编译:文强 【新智元导读】谷歌今天发布MobileNet重大更新,推出MobileNetV2,在结构上使用depthwise可分离卷积为基础,在层与层之间增加了线性的bottleneck,并且bottleneck之间也增加了残差连接,因此速度更快,精度更高,更适合设备上处理。 去年我们推出了MobileNetV1,这是一系列专为移动设备设计的通用计算机视觉神经网络,支持
谷歌近期更新了Tensorflow Object-Detection API里面的detection_model_zoo,模型都是非常前沿的,其性能都处于该领域的领先水平,如下图所示:
紧接着上篇的MobileNet V1,Google在2018年的CVPR顶会上发表了MobileNetV2,论文全称为《MobileNetV2: Inverted Residuals and Linear Bottlenecks》,原文地址见附录。
腾讯优图属于国内工业界CV领域实验室的第一梯队,其不仅服务腾讯内部线上产品,也开源了多个前沿研究和工程项目,本文盘点优图实验室开源的所有项目,其中最“火”的三个工程是『NCNN』、『人脸检测-DSFD』、『目标检测-OSD』。
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 在这篇论文中,来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transformer——MobileViT。该网络在 ImageNet-1k 数据集上实现了 78.4% 的最佳精度,比 MobileNetv3 还要高 3.2%,而且训练方法简单。目前,该论文已被 ICLR 2022 接收。 论文链接:https://arxiv.org/pdf/2110.02178.pdf 代码链接:https://github.com/appl
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 在这篇论文中,来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transformer——MobileViT。该网络在 ImageNet-1k 数据集上实现了 78.4% 的最佳精度,比 MobileNetv3 还要高 3.2%,而且训练方法简单。目前,该论文已被 ICLR 2022 接收。 论
新智元报道 来源:research.googleblog.com 作者:Mark Sandler and Andrew Howard 编译:文强 【新智元导读】谷歌今天发布MobileNet重大更新,推出MobileNetV2,在结构上使用depthwise可分离卷积为基础,在层与层之间增加了线性的bottleneck,并且bottleneck之间也增加了残差连接,因此速度更快,精度更高,更适合设备上处理。 去年我们推出了MobileNetV1,这是一系列专为移动设备设计的通用计算机视觉神经网络,支
装有摄像头的无人机具有捕获空中图像(鸟瞰图)的优势。由于空中图像数据的可用性和目标检测算法的新进展,使得计算机视觉界将注意力集中到航摄图像上的目标检测任务。但是在现有的带有目标标注的可视化的空中数据集中,无人机仅仅被用作飞行摄像机,丢弃了关于飞行的相关数据类型(例如,时间、位置、内部传感器)。在本文中,提出了一个多用途空中数据集(AU-AIR),它具有多模态传感器数据,即视觉、时间、位置、海拔、IMU、速度等,这些数据采集于真实的外环境中。AU-AIR数据集包含原始数据,可用于从录制的RGB视频中提取帧。此外,在目标检测任务的背景下,我们强调了自然图像和航摄图像之间的差异。我们在AU-AIR数据集上对可移动物体探测器(包括YOLOv3-Tiny和MobileNetv2-SSDLite)进行训练和测试,使其用于无人机的机载计算机进行实时物体检测。由于本文的数据集记录的数据类型具有多样性,有助于填补计算机视觉和机器人学之间的差距。
项目链接:https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet
本文主要是针对Representational Bottleneck问题进行的讨论,并提出了一套可以显著改善模型性能的设计原则。本文中作者认为在传统网络的设计的中可能会存在Representational Bottleneck问题,并且该问题会导致模型性能的降低。
选自Google Blog 作者:Mark Sandler、Andrew Howard 机器之心编译 参与:黄小天、思源 深度学习在手机等移动端设备上的应用是机器学习未来的重要发展方向。2017 年 4 月,谷歌发布了 MobileNet——一个面向有限计算资源环境的轻量级神经网络。近日,谷歌将这一技术的第二代产品开源,开发者称,新一代 MobileNet 的模型更小,速度更快,同时还可以实现更高的准确度。 项目链接:https://github.com/tensorflow/models/tree/mas
AI 科技评论按:在计算机视觉领域中,多维度目标检测一直被用作输入以生成反映不同维度信息的特征组合,这种办法能够有效表达图片上的各种维度特征,然而却对硬件计算能力及内存大小有较高要求,因此只能在有限的领域内部使用。Facebook 于 2016 年在论文《Feature Pyramid Networks for Object Detection》中提出的 FPN,通过利用常规 CNN 模型内部从底至上各个层对同一 scale 图片不同维度的特征表达结构,提出了一种可有效在单一图片视图下生成对其的多维度特征表达的方法。近期,Facebook 和谷歌接连发布了基于 FPN 的改进工作,我们将之整理如下。
AiTechYun 编辑:yuxiangyu 去年,谷歌发布了MobileNetV1,这是一个通用的计算机视觉神经网络,用于支持在移动设备上分类,检测等等。在个人移动设备上运行深度神经网络的能力改善了用户体验,可以随时随地访问,并为安全、隐私和能耗带来了额外的优势。随着新应用的出现,用户可以与真实世界进行实时交互,因此需要更高效的神经网络。 今天,我们很高兴地宣布,MobileNetV2将助力下一代移动视觉应用。MobileNetV2相对于MobileNetV1的重大改进,并推动了移动视觉识别技术的发展
作者:Golnaz Ghaisi、Tsung-Yi Lin、Ruoming Pang、Quoc V. Le
虽然深度学习在图像分类、检测等任务上颇具优势,但提升模型精度对能耗和存储空间的要求很高,移动设备通常难以达到要求。
本文在学习《Tensorflow object detection API 搭建属于自己的物体识别模型(2)——训练并使用自己的模型》的基础上优化并总结,此博客链接:https://blog.csdn.net/dy_guox/article/details/79111949,感谢此博客作者。
【GiantPandaCV导语】本文介绍了一篇发表于NeuIPS20发表的半监督神经网络结构搜索算法,通过在训练预测器的过程中引入半监督算法,一定程度上提升了预测器的准确率。
本文解读的是 CVPR 2020 论文《When NAS Meets Robustness: In Search of Robust Architectures against Adversarial Attacks》,作者来自香港中文大学、MIT。
当人工设计的神经网络结构在各项任务上都取得了很好的成绩之后,人类开始思考如何自动设计网络结构。
在这篇由腾讯 AI Lab 主导,和华南理工大学合作完成的论文中,作者利用强化学习的方法学习了一种神经网络结构转换器。它能对任意的神经网络结构进行优化,将其转换为更紧凑、识别精度更高的结构。以下为论文的详细解读。
AI 科技评论按:本文由「图普科技」编译自 An Opinionated Introduction to AutoML and Neural Architecture Search (http://www.fast.ai/2018/07/16/auto-ml2/#auto-ml)
AI 研习社按:本文由「图普科技」编译自 An Opinionated Introduction to AutoML and Neural Architecture Search 。
近年来,神经网络已经成为了计算机视觉中主要的机器学习解决方案。然而神经网络结构的设计仍然需要极强的专业知识,在一定程度上妨碍了神经网络的普及。
随着深度学习技术的广泛使用,人们对于如何自动对神经网络结构进行设计产生了浓厚的兴趣,研究人员希望能够通过数据驱动的方式对模型结构进行搜索,更加自动地找到能够拟合当前任务的最佳网络结构。
领取专属 10元无门槛券
手把手带您无忧上云