谷歌大脑提出EfficientNet平衡模型扩展三个维度,取得精度-效率的最大化!
在现代深度学习算法研究中,通用的骨干网+特定任务网络head成为一种标准的设计模式。比如VGG + 检测Head,或者inception + 分割Head。
基于终端设备的机器学习(On-device machine learning)是实现具有隐私保护功能、能够时刻运转、快速响应的智能的重要组成部分。这就要求我们将基于终端的机器学习部署在算力有限的设备上,从而推动了从算法意义上来说高效的神经网络模型的研究,以及每秒可执行数十亿次数学运算却只需要消耗几毫瓦电力的硬件的发展。最近发布的「Google Pixel 4」就是这一发展趋势的代表。
谷歌从 17 年发布 MobileNets 以来,每隔一年即对该架构进行了调整和优化。现在,开发者们对 MobileNetV3 在一次进行了改进,并将 AutoML 和其他新颖的思想融入到该移动端的深度学习框架中。谷歌发布了相关文章对升级后的 MobileNetV3 进行了讲解,我们将其整理编译如下。
论文: MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
相对重量级网络而言,轻量级网络的特点是参数少、计算量小、推理时间短。更适用于存储空间和功耗受限的场景,例如移动端嵌入式设备等边缘计算设备。因此轻量级网络受到了广泛的关注,其中MobileNet可谓是其中的佼佼者。MobileNetV3经过了V1和V2前两代的积累,性能和速度都表现优异,受到学术界和工业界的追捧,无疑是轻量级网络的“抗把子“。MobileNetV3 参数是由NAS(network architecture search)搜索获取的,又继承的V1和V2的一些实用成果,并引人SE通道注意力机制,可谓集大成者。本文以应用为主,结合代码剖析MobileNetV3的网络结构,不会对NAS以及其设计思想做过多解析。
随着模型特征提取能力的提高以及模型参数和FLOPs数量的增加,在基于ARM架构的移动设备或基于x86架构的CPU设备上实现快速推理变得困难。在这种情况下,已经提出了许多优秀的Mobile网络,但由于MKLDNN的限制,这些网络的速度在启用MKLDNN的Intel CPU上并不理想。
前面的轻量级网络架构中,介绍了mobilenet v1和mobilenet v2,前不久,google又在其基础之上推出新的网络架构,mobilenet v3.
近年来,Compact卷积神经网络(CNNs)的性能有了显著的提高。然而,在参数众多的情况下,它们仍然无法提供与普通CNN相同的预测能力。这些层捕获的多样且丰富的特征是这些CNN的一个重要特征。
arXiv:https://arxiv.org/pdf/2109.15099.pdf
code: https://github.com/yyxiongzju/ANTNets
MobileNetV3是Google继MobileNet V1和MobileNet V2后的新作,主要使用了网络搜索算法(用NAS通过优化每个网络块来搜索全局网络结构,用NetAdapt算法搜索每个层的滤波器数量),同时在MobileNet V2网络结构基础上进行改进,并引入了SE模块(我们已经讲过了SENet,【cv中的Attention机制】最简单最易实现的SE模块)和提出了H-Swish激活函数。论文原文见附录。
论文地址:https://arxiv.org/pdf/2110.02178.pdf
轻量级卷积神经网络(CNN)是移动视觉任务的实际应用。他们的空间归纳偏差允许他们在不同的视觉任务中以较少的参数学习表征。然而,这些网络在空间上是局部的。为了学习全局表征,采用了基于自注意力的Vision Transformer(ViTs)。与CNN不同,ViT是heavy-weight。
本文创造性的将MobileNet与Transformer进行了两路并行设计,穿插着全局与特征的双向融合,同时利用卷积与Transformer两者的优势达到“取长补短”的目的。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
本文创造性的将MobileNet与Transformer进行了两路并行设计,穿插着全局与特征的双向融合,同时利用卷积与Transformer两者的优势达到“取长补短”的目的。
在上篇博文中,博主介绍了关于 MobileNetV3 的网络结构以及主体代码实现;接下来,博主将介绍模型的训练,验证评估以及接口设计。
在过去的几年里,许多深度学习模型涌现出来,例如层的类型、超参数等。在本系列中,我将回顾几个最显着的 deeplearn 图像分类的模型。
今天咱们来聊聊计算机视觉领域最核心的技术之一——图像分类。顾名思义图像分类是指根据图像信息把不同类别的图像自动区分开来,并能指出图像类别信息。如图 1 所示,当前图像分类技术有着非常广泛的应用场景。
arXiv: https://arxiv.org/pdf/2110.02178.pdf
同样精度,速度和计算量均少于此前SOTA算法。这就是华为诺亚方舟实验室提出的新型端侧神经网络架构GhostNet。
zhuanlan.zhihu.com/c_1113861154916601856
目前在深度学习领域主要分为两类,一派为学院派(Researcher),研究强大、复杂的模型网络和实验方法,旨在追求更高的性能;另一派为工程派(Engineer),旨在将算法更稳定、更高效的落地部署在不同硬件平台上。
今天主要是预先告知大家下一期我们发送的内容,主要是模型压缩!如果你们有想了解或深入熟悉的框架,可以在留言处告诉我们,我们也会第一时间把大家希望的分享出来,我们一起学习讨论,共同进步!
在本文中,作者提出了一个并行设计的双向连接MobileNet和Transformer的结构Mobile-Former。这种结构利用了MobileNet在局部信息处理和Transformer的在全局交互方面的优势,这样的连接可以实现局部和全局特征的双向融合。
本文分享论文『Dynamic Convolution: Attention over Convolution Kernels』,静态的结构依旧不能满足性能需求了?微软提出了Dynamic Convolution(动态卷积),让MobileNetV3提高2.9%Top-1准确率!(附复现代码)。
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 在这篇论文中,来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transformer——MobileViT。该网络在 ImageNet-1k 数据集上实现了 78.4% 的最佳精度,比 MobileNetv3 还要高 3.2%,而且训练方法简单。目前,该论文已被 ICLR 2022 接收。 论文链接:https://arxiv.org/pdf/2110.02178.pdf 代码链接:https://github.com/appl
构建在深度卷积上的Inverted bottleneck layers已经成为移动设备上最先进目标检测模型的主要构建模块。在这项工作中,作者通过回顾常规卷积的实用性,研究了这种设计模式在广泛的移动加速器上的最优性。
呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦!
8 月 19 日,小米 AI 实验室 AutoML 团队(论文作者:初祥祥、张勃、李吉祥、李庆源、许瑞军)再次展示最新成果 SCARLET,超过 Google Brain 首席科学家 Quoc Le 团队提出的 EfficientNet 同量级模型 (ICML 2019)。
AI 无处不在的时代,每天都有新的技术与研究成果出现。无论学术界还是商界,技术还是产品,AI 的新发现都源源不断,在带给我们全新视角的同时,也引起我们更深的思考。
💡💡💡本文独家原创改进:轻量级 ViT 的高效架构选择,逐步增强标准轻量级 CNN(特别是 MobileNetV3)的移动友好性。 最终产生了一个新的纯轻量级 CNN 系列,即 RepViT
近期值得关注的论文很多,可以看作顶会“种子”paper。这里为了节省篇幅,放大重点,Amusi做了论文精选。本文要速递介绍的这两篇论文,我觉得都是相当具有影响力的paper。
该文是CMU的Zhiqiang Shen提出的一种提升标准ResNet50精度的方法,它应该是首个将ResNet50的Top1精度刷到80%+的(无需额外数据,无需其他tricks,无需网络架构调整)。该文对于研究知识蒸馏的同学应该是有不少可参考的价值,尤其是里面提到的几点讨论与结论,值得深思。
本文提出了一种名为PP-LCNet的轻量级网络,该网络基于MKLDNN加速策略,旨在提高轻量级模型在多种任务上的性能。本文介绍了能够在几乎不增加延迟的情况下提升网络准确度的技术。通过这些改进,PP-LCNet的准确度显著优于具有相同推理时间的先前网络结构。如图1所示,它的性能优于当前大多数前沿模型。在计算机视觉的后续任务(如目标检测、语义分割等)中,它也展现出卓越的性能。所有实验都是基于PaddlePaddle平台实现的。相关的代码和预训练模型可以在PaddleClas上获取。
前两章主要介绍了DBNet文字检测算法以及CRNN文字识别算法。然而对于我们实际场景中的一张图像,想要单独基于文字检测或者识别模型,是无法同时获取文字位置与文字内容的,因此,我们将文字检测算法以及文字识别算法进行串联,构建了PP-OCR文字检测与识别系统。在实际使用过程中,检测出的文字方向可能不是我们期望的方向,最终导致文字识别错误,因此我们在PP-OCR系统中也引入了方向分类器。
由于内存和计算资源有限,很难在嵌入式设备上部署卷积神经网络(CNN)。特征图中的冗余是那些成功的CNN的重要特点,但很少在神经体系结构设计中进行研究。本文提出了一种新颖的Ghost模块,可以通过简单的操作生成更多的特征图。基于一系列内在的特征图,我们应用了一系列简单的线性变换以生成许多ghost特征图,这些ghost特征图可以充分揭示内部特征的信息。提出的Ghost模块可以作为即插即用组件来升级现有的卷积神经网络。Ghost boottlenecks 旨在堆叠Ghost模块,然后可以轻松建立轻量级的GhostNet。实验表明:我们的GhostNet可以实现比MobileNetV3更高的识别性能(例如75.7%top-1精度)。
C3F 的开源使得人群计数领域终于有了自己的框架。(开发者就在我们52CV行人群里哦)
机器之心报道 机器之心编辑部 在这篇论文中,来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transformer——MobileViT。该网络在 ImageNet-1k 数据集上实现了 78.4% 的最佳精度,比 MobileNetv3 还要高 3.2%,而且训练方法简单。目前,该论文已被 ICLR 2022 接收。 论文链接:https://arxiv.org/pdf/2110.02178.pdf 代码链接:https://github.com/apple/ml-cvnets 轻量级卷积神经网
论文作者发现在传统的深度学习网络中存在着大量冗余,但是对模型的精度至关重要的特征图。这些特征图是由卷积变化得到,又输入到下一个卷积层进行运算,这个过程包含大量的网络参数,消耗了大量的计算资源。如下面的ResNet-50某层中的特征图,扳手之间的两个特征图存在很强的线性关系,通过计算成本较低的操作即可得到。
Inverted bottleneck layers, IBN已成为终端设备SOTA目标检测方法的主要模块。而在这篇文章里,作者通过重新分析研究终端芯片加速下的常规卷积而对“IBN主导的网络架构是否最优”提出了质疑。作者通过将常规卷积纳入搜索空间取得了延迟-精度均衡下的性能提升,得到了一类目标检测模型:MobileDets。在COCO目标检测任务上,基于同等终端CPU推理延迟,MobileDets以1.7mAP性能优于MobileNetV3+SSDLite,以1.9mAP性能优于MobileNetV2+SSDLite;在EdgeTPU平台上,以3.7mAP性能优于MobileNetV2+SSDLite且推理更快;在DSP平台上,以3.4mAP性能优于MobileNetV2+SSDLite且推理更快。与此同时,在不采用FPN的情况下,在终端CPU平台,MobileDets取得了媲美MnasFPN的性能;在EdgeTPU与DSP平台具有更优的mAP指标,同时推理速度快2倍。
本文经ai新媒体量子位(公众号 id:qbitai)授权转载,转载请联系出处本文约1200字,建议阅读7分钟用上轻量级网络+监督学习。 当真是买算法送手机! 这不,谷歌又给“亲儿子”Pixel 6塞福利了,让手机抠图也能细节到头发丝。看这效果,原本模糊的头发轮廓,咻地一下,就变成了纤毫毕现的样子! 连发丝之间的缝隙也能精准抠到。 这样一来,就避免了使用人像模式拍照时人物与虚化背景割裂的情况,让人物照片的纵深感更加逼真。 四舍五入一下,这不就是手握单反拍照?(手动狗头) Alpha遮罩+监督学习 在介绍最
【导读】之前详细介绍了轻量级网络架构的开源项目,详情请看深度学习中的轻量级网络架构总结与代码实现,本项目主要提供一个移动端网络架构的基础性工具,避免大家重复造轮子,后续我们将针对具体视觉任务集成更多的移动端网络架构。希望本项目既能让深度学习初学者快速入门,又能更好地服务科研学术和工业研发社区。后续将持续更新模型轻量化处理的一系列方法,包括:剪枝,量化,知识蒸馏等等,欢迎大家Star和Follow.
下图为我们了展示了2018前常用CNN模型大小与Accuracy的比较,网络上不乏介绍CNN演进的文章[LeNet/AlexNet/Vgg/ Inception/ResNet],写的也都很好,今天我们为各位读者介绍几个最新的CNN模型,如何搭建以及他们的优势在哪里。
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 在这篇论文中,来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transformer——MobileViT。该网络在 ImageNet-1k 数据集上实现了 78.4% 的最佳精度,比 MobileNetv3 还要高 3.2%,而且训练方法简单。目前,该论文已被 ICLR 2022 接收。 论
本文旨在以极低的计算成本解决性能大幅下降的问题。作者发现有两个因素是可以有效提高精度的,分别是:稀疏连通性和动态激活函数。前者避免了网络宽度的大幅度缩减的危害,而后者则减轻了网络深度缩减的危害。
本文为字节跳动团队发布的视频抠像工具 RVM 代码解析及论文《Robust High-Resolution Video Matting with Temporal Guidance》概要。
---- 新智元报道 编辑:LRS 【新智元导读】你的batch size是多少?最近有大佬做实验表示没必要非得2次方,训练速度影响微乎其微,但评论区却吵翻天了! 你有没有疑惑过,为啥batch size都是2的幂数? 有人觉得是「习惯」,也有人说这算是一种约定俗成的标准,因为从「计算」的角度来看,batch size为2的幂数有助于提高训练效率。 但计算机科学就是一门实践的学科,理论再完美也需要实验结果来验证。 最近一位AI研究者Sebastian动手试了一下所有的batch size,结果发
领取专属 10元无门槛券
手把手带您无忧上云