开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么我们要在resnet-50架构中增加维度？

在resnet-50架构中增加维度的目的是为了提高模型的表达能力和性能。具体原因如下：

增加维度可以增加模型的深度：resnet-50是一个深度卷积神经网络，通过增加维度可以增加网络的层数，进一步提高模型的表达能力。更深的网络可以学习到更复杂的特征和抽象表示，从而提高模型的性能。
增加维度可以增加模型的宽度：在resnet-50中，每个残差块都有多个卷积层，通过增加维度可以增加每个残差块内部卷积层的通道数。增加通道数可以增加每个残差块内部的特征表达能力，使得模型更加适应复杂的数据分布。
增加维度可以提高模型的泛化能力：通过增加维度，模型可以学习到更多的特征信息，从而提高模型对不同类别样本的区分能力。增加维度还可以减少特征信息的丢失，提高模型的泛化能力。
增加维度可以提高模型的准确率：通过增加维度，模型可以更好地捕捉输入数据的细节和特征，从而提高模型的准确率。增加维度还可以减少模型的欠拟合情况，提高模型的拟合能力。

在resnet-50架构中增加维度的具体方法可以是增加卷积层的通道数、增加残差块的数量或者增加全连接层的维度等。这样可以在不增加网络参数量的情况下提高模型的表达能力和性能。

腾讯云相关产品和产品介绍链接地址：

腾讯云AI推理：https://cloud.tencent.com/product/tci
腾讯云机器学习平台：https://cloud.tencent.com/product/tensorflow
腾讯云深度学习工具包：https://cloud.tencent.com/product/tensorflow
腾讯云图像识别：https://cloud.tencent.com/product/tii
腾讯云视频智能分析：https://cloud.tencent.com/product/tva

相关搜索:为什么我们不需要在HttpGet Create中返回视图(new Person())？为什么我们不需要在super()中包含self呢？为什么我们要在docker中同时使用--detach开关和--interactive和--tty？为什么我们要在keras中重置测试生成器？为什么我们要在react-i18中使用http加载翻译？为什么我们要在tensorflow中构建变量字典为什么我们要在这段代码中检查( instance == null){ instance = this ;}？为什么我们需要在android中投射视图？为什么我们需要在bigquery中构造一个数据集引用？为什么我们需要在cucumber jvm 8的构造函数中编写lambda step def？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

ResNet50 文艺复兴 | ViT 原作者让 ResNet50 精度达到82.8%，完美起飞！！！

大型视觉模型目前主导着计算机视觉的许多领域。最新的图像分类、目标检测或语义分割模型都将模型的大小推到现代硬件允许的极限。尽管它们的性能令人印象深刻，但由于计算成本高，这些模型很少在实践中使用。

03

图解十大 CNN 架构

CNN 取得的大多数进展并非源自更强大的硬件、更多的数据集和更大的模型，而主要是由新的想法和算法以及优化的网络结构共同带来的结果。

03

神经网络似乎遵循一种令人费解的简单策略来对图像进行分类

在这篇文章中，我将展示为什么最先进的深度神经网络仍能很好地识别乱码图像，以及这有助于揭示DNN似乎用来对自然图像进行分类的令人费解的简单策略。这些发现发表在ICLR 2019，有许多分歧：首先，它们表明解决ImageNet比许多人想象的要简单得多。其次，这些发现使我们能够构建更具解释性和透明度的图像分类流水线。第三，他们解释了现代CNN中观察到的一些现象，例如他们对纹理的偏见（参见我们在ICLR 2019的另一篇论文和我们相应的博客文章）以及他们忽略了对象部分的空间排序。

04

arxiv | Swin Transformer:使用移动窗口的分层Vision Transformer

今天给大家介绍的是微软亚洲研究院的一篇文章”Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”。从语言到视觉应用Transformer的挑战来源于两个领域的差异，例如和文本字词相比视觉实体的复杂变化以及图像像素的高分辨率两方面的差异。为了解决这样的问题，作者在这篇文章中提出一种称为Swin Transformer新型Vision Transformer。Swin Transformer使用允许跨窗口连接的移动窗口将自注意力限制在不重叠的局部窗口上计算表示，其提出的层次结构具有不同尺度上图像上建模的灵活性，在各种视觉任务上取得优秀的结果，有望在计算机视觉领域取代CNN成为一种通用框架。

04

简单到出人意料的CNN图像分类策略

在这篇文章中，作者展示了为什么最先进的深度神经网络仍能很好地识别乱码图像，探究其中原因有助于揭示DNN使用让人意想不到的简单策略，对自然图像进行分类。

02

德国学者给CNN泼冷水：图像分类策略太简单，提高准确率全靠调参

上面一堆杂乱无章的图片，你能看出是什么吗？但CNN却能很轻松地识别它们。其实，人与机器在这方面的差异，恰恰蕴含着神经网络分类策略背后简单的逻辑。

01

Squeeze-and-Excitation Networks论文翻译——中文版

本文介绍了视觉识别技术中的图像分类任务，重点讲解了ResNet、VGG、Inception和EfficientNet等模型在图像分类任务中的应用，并对图像分类的常用数据集进行了介绍。此外，还探讨了图像分类任务中的一些挑战和未来的发展方向，包括模型压缩、可解释性、实时性能等方面，并展望了图像分类技术在未来可能的发展方向。

实际上，CNN图像分类策略简单到出人意料！

在这篇文章中，作者展示了为什么最先进的深度神经网络仍能很好地识别乱码图像，探究其中原因有助于揭示DNN使用让人意想不到的简单策略，对自然图像进行分类。

04

遮挡人脸问题 | 详细解读Attention-Based方法解决遮挡人脸识别问题（附论文下载）

在非约束性环境(如大量人群)中捕获的人脸照片，仍然对当前的人脸识别方法构成挑战，因为人脸经常被前景中的物体或人遮挡。然而，很少有研究涉及到识别部分面孔的任务。

02

谷歌大脑开源「数据增强」新招数：ImageNet准确率达85%，大神Quoc Le出品

玩深度学习的人都知道，AI算法大部分是数据驱动。数据的质量一定程度上决定了模型的好坏。

01

微博 Qzone 微信是你的数据还不够强！谷歌大脑「数据增强」开源，大神QuocLe出品

玩深度学习的人都知道，AI算法大部分是数据驱动。数据的质量一定程度上决定了模型的好坏。

01

谷歌大脑开源「数据增强」新招数：ImageNet准确率达85%，大神Quoc Le出品

玩深度学习的人都知道，AI算法大部分是数据驱动。数据的质量一定程度上决定了模型的好坏。

01

谷歌发布人体图像分割工具BodyPix 2.0，支持多人识别，可在iPhone上流畅运行

今天，Google官方推出了使用TensorFlow.js的人体图像分割工具BodyPix 2.0，对该工具进行了一次重大升级，加入多人支持，并提高了准确率。

01

谷歌提出新型卷积网络EfficientNet：推理速度提升5.1倍，参数减少88%（附论文&代码）

谷歌提出了一种新型CNN网络EfficientNet，该网络具备极高的参数效率和速度。

03

谷歌发布人体图像分割工具BodyPix 2.0，支持多人识别，可在iPhone上流畅运行

今天，Google官方推出了使用TensorFlow.js的人体图像分割工具BodyPix 2.0，对该工具进行了一次重大升级，加入多人支持，并提高了准确率。

01

谷歌发布人体图像分割工具BodyPix 2.0，支持多人识别，可在iPhone上流畅运行

今天，Google官方推出了使用TensorFlow.js的人体图像分割工具BodyPix 2.0，对该工具进行了一次重大升级，加入多人支持，并提高了准确率。

04

神奇的Batch Normalization 仅训练BN层会发生什么

最近，我阅读了arXiv平台上的Jonathan Frankle，David J. Schwab和Ari S. Morcos撰写的论文“Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs”。这个主意立刻引起了我的注意。到目前为止，我从未将批标准化（BN）层视为学习过程本身的一部分，仅是为了帮助深度网络实现优化和提高稳定性。经过几次实验，我发现我错了。在下文中，我将展示我复制的论文的结果以及从中学到的东西。

01

即插即用注意力机制 | ResNet50+DSA注意力还可以再挣扎挣扎！！！

卷积神经网络（CNNs）在结构上设计用于通过应用卷积核实现的卷积滤波器来利用局部空间层次。尽管这使得它们在涉及局部空间模式的任务上既高效又有效，但其固有的设计限制了它们的感受野，可能会阻碍不在内核边界内的相关信息的全面集成。

02

Transformer已成新霸主？FAIR等重新设计纯卷积ConvNet，性能反超

视觉识别的快速发展始于 Vision transformer (ViT) 的引入，其很快取代了传统卷积神经网络 (ConvNet)，成为最先进的图像分类模型。另一方面， ViT 模型在包括目标检测、语义分割等一系列计算机视觉任务中存在很多挑战。因此，有研究者提出分层 Transformer（如 Swin Transformer），他们重新引入 ConvNet 先验，这样使得 Transformer 作为通用视觉主干实际上可行，并在各种视觉任务上表现出卓越的性能。

03

利用JPEG制作更快，更准确的神经网络

文 / Lionel Gueguen, Alex Sergeev, Rosanne Liu, & Jason Yosinski

01

神经架构搜索在视频理解中研究进展的综述

作者 | Michael S. Ryoo 研究员与 AJ Piergiovanni 学生研究员（Google 机器人团队）

02

何恺明、吴育昕最新成果：用组归一化替代批归一化

编译 | 阿司匹林 AI科技大本营按：近日，FAIR 团队的吴育昕和何恺明提出了组归一化（Group Normalization，简称 GN）的方法。其中，GN 将信号通道分成一个个组别，并在每个组别内计算归一化的均值和方差，以进行归一化处理。此外，GN 的计算与批量大小无关，而且在批次大小大幅变化时，精度依然稳定。实验结果证明，GN 在多个任务中的表现均优于基于 BN 的同类算法，这表明 GN 能够在一系列任务中有效地替代 BN。以下内容来自 Group Normalization 论文，AI科技大

05

从自监督到全监督！Google 提出新损失函数SupCon，准确率提升2%！

---- 新智元报道来源：Google AI Blog 编辑：LRS 【新智元导读】监督学习中一个重要的模块就是损失函数了，而最常见的损失函数就是交叉熵了。Google在NIPS2020上提出了一个损失函数SupCon，只需换掉交叉熵，准确率立刻提升2%，快来了解一下吧！近年来，由于对比学习的应用，自监督表征(self-supervised representation learning)学习在各种图像和视频任务中得到了显著的发展。对比学习方法通常指导模型在嵌入空间中将目标图像(anchor

03

Squeeze-and-Excitation Networks论文翻译——中英文对照

本文介绍了视觉特征提取和分类算法研究方面的最新进展，包括深度卷积神经网络、CNN的架构、新型卷积层、数据增强、迁移学习、半监督学习、自监督学习等方面的研究。

00

Kaggle座头鲸识别赛，TOP10团队的解决方案分享

这是近期Kaggle上颇受欢迎的一次竞赛，常用的分类方法无法处理大量的无标注数据，只有对传统的方法进行创新，才能够获得高分。

01

谷歌开源新模型EfficientNet，或成计算机视觉任务新基础

开发一个卷积神经网络（CNN）的成本通常是固定的。在获得更多资源时，我们通常会按比例进行扩展，以便获得更优的准确性。例如，ResNet可以通过增加层数从ResNet-18扩展到ResNet-200，最近，GPipe 网络通过将基准 CNN 模型扩展四倍，在 ImageNet Top-1 上获得了 84.3％的准确度。在模型扩展方面的操作通常是任意增加 CNN 的深度或宽度，或者在更大输入图像分辨率上进行训练和评估。虽然这些方法确实提高模型了准确性，但它们通常需要繁琐的手工调整，而且还不一定能找到最优的结构。换言之，我们是否能找到一种扩展设计方法来获得更好的准确性和效率呢？

01

Kaggle座头鲸识别赛，TOP10团队的解决方案分享

这是近期Kaggle上颇受欢迎的一次竞赛，常用的分类方法无法处理大量的无标注数据，只有对传统的方法进行创新，才能够获得高分。

03

来自谷歌大脑的SpineNet：一种非常规的主干结构

由于编码器部分的解码器结构的分辨率不断降低，分类问题得到了很好的解决。然而，这种架构不能有效地生成用于目标检测(同时识别和定位)所需的强多尺度特征。

01

Squeeze-and-Excitation Networks

卷积神经网络(CNNs)的核心构件是卷积算子，它通过在每一层的局部接受域内融合空间和信道信息来构造信息特征。之前的大量研究已经研究了这种关系的空间成分，试图通过提高整个特征层次的空间编码质量来增强CNN的代表性。在这项工作中，我们关注的是通道之间的关系，并提出了一个新的架构单元，我们称之为“挤压-激励”(SE)块，它通过显式地建模通道之间的相互依赖关系，自适应地重新校准通道方向的特征响应。我们展示了这些块可以叠加在一起形成SENet架构，从而非常有效地在不同的数据集中进行泛化。我们进一步证明，SE块可以显著提高现有的最先进的CNNs的性能，只需要稍微增加一些计算成本。挤压和激励网络构成了我们ILSVRC 2017年分类提交的基础，该分类提交获得了第一名，并将前5名的错误减少到2.251%，比2016年获奖的条目相对提高了约25%。

02

学界 | 牛津大学提出神经网络新训练法：用低秩结构增强网络压缩和对抗稳健性

作者：Amartya Sanyal、Varun Kanade、Philip H.S. Torr

03

学界 | 牛津大学提出神经网络新训练法：用低秩结构增强网络压缩和对抗稳健性

选自arXiv 作者：Amartya Sanyal、Varun Kanade、Philip H.S. Torr 机器之心编译参与：刘天赐、刘晓坤和目前普遍的稀疏性诱导、结构化限制相似，神经网络的低秩结构也具有压缩的性质，并在对抗攻击中具备稳健性。在本文中，来自牛津大学计算科学部和阿兰图灵机构的研究者开发了一种新方法，通过在训练过程中引入修正，增强神经网络表征的低秩属性。引言深度（卷积）神经网络已经取得了许多重大成果，「表征学习」就是其中非常迷人的一个方面：深度网络能够从原始数据中生成可以用于多个任

05

十幅插图带你了解CNN架构

LeNet-5是最简单的架构之一，它有2个卷积层和3个完全连接层。我们现在知道的平均汇集层被称为子采样层，它具有可训练的权重。该架构有大约60,000个参数。

02

谷歌开源缩放模型EfficientNets：ImageNet准确率创纪录，效率提高10倍

最近，谷歌基于AutoML开发了EfficientNets，这是一种新的模型缩放方法。它在ImageNet测试中实现了84.1%的准确率，再次刷新了纪录。

02

通俗易懂：图解10大CNN网络架构

导语：近年来，许多卷积神经网络（ CNN ）跃入眼帘，而随着其越来越深的深度，我们难以对某个 CNN 的结构有较明确的了解。因此本文精心选取了 10 个 CNN 体系结构的详细图解进行讲述。

04

专栏 | Momenta详解ImageNet 2017夺冠架构SENet

机器之心专栏作者：胡杰本届 CVPR 2017大会上出现了很多值得关注的精彩论文，国内自动驾驶创业公司 Momenta 联合机器之心推出 CVPR 2017 精彩论文解读专栏。除此之外，Mome

04

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

选自arXiv 作者：吴育昕、何恺明机器之心编译自 Facebook 在 2017 年 6 月发布 1 小时训练 ImageNet 论文以来，很多研究者都在关注如何使用并行训练来提高深度学习的训练速度，其研究所使用的批尺寸也呈指数级上升。近日，FAIR 研究工程师吴育昕、研究科学家何恺明提出了组归一化（Group Normalization）方法，试图以小批尺寸实现快速神经网络训练，这种方法对于硬件的需求大大降低，并在实验中超过了传统的批归一化方法。批归一化（Batch Norm/BN）是深度学习中非

07

超越ResNet：南开提出Res2Net，不增计算负载，性能全面升级！

2015年，由何恺明等四位华人所提出的ResNet一战成名，可极快的加速神经网络的训练。

04

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

选自arXiv 作者：吴育昕、何恺明机器之心编译自 Facebook 在 2017 年 6 月发布 1 小时训练 ImageNet 论文以来，很多研究者都在关注如何使用并行训练来提高深度学习的训练速度，其研究所使用的批尺寸也呈指数级上升。近日，FAIR 研究工程师吴育昕、研究科学家何恺明提出了组归一化（Group Normalization）方法，试图以小批尺寸实现快速神经网络训练，这种方法对于硬件的需求大大降低，并在实验中超过了传统的批归一化方法。批归一化（Batch Norm/BN）是深度学习中非

06

GhostNet: More Features from Cheap Operations论文解析

由于内存和计算资源有限，很难在嵌入式设备上部署卷积神经网络（CNN）。特征图中的冗余是那些成功的CNN的重要特点，但很少在神经体系结构设计中进行研究。本文提出了一种新颖的Ghost模块，可以通过简单的操作生成更多的特征图。基于一系列内在的特征图，我们应用了一系列简单的线性变换以生成许多ghost特征图，这些ghost特征图可以充分揭示内部特征的信息。提出的Ghost模块可以作为即插即用组件来升级现有的卷积神经网络。Ghost boottlenecks 旨在堆叠Ghost模块，然后可以轻松建立轻量级的GhostNet。实验表明：我们的GhostNet可以实现比MobileNetV3更高的识别性能（例如75.7％top-1精度）。

04

超越ResNet：南开提出Res2Net，不增计算负载，性能全面升级！

2015年，由何恺明等四位华人所提出的ResNet一战成名，可极快的加速神经网络的训练。

03

谷歌出品EfficientNet：比现有卷积网络小84倍，比GPipe快6.1倍

目前提高CNN精度的方法，主要是通过任意增加CNN深度或宽度，或使用更大的输入图像分辨率进行训练和评估。

03

魔改ResNet反超Transformer再掀架构之争！作者说“没一处是创新”，这些优化trick值得学

梦晨发自凹非寺量子位 | 公众号 QbitAI 过去一年，Transformer频频跨界视觉领域，大有抢CNN饭碗之势。先是图像分类上被谷歌ViT突破，后来目标检测和图像分割又被微软Swin Transformer拿下。随着投身视觉Transformer研究的学者越来越多，三大任务榜单皆被Transformer或两种架构结合的模型占据头部。但就在此时，一篇《2020年代的卷积网络》横空出世，带来全新纯卷积模型ConvNeXt，一下又热闹起来—— 全世界CV圈再次掀起模型架构之争，LeCun等一众

02

EfficientNet解析：卷积神经网络模型规模化的反思

自从Alexnet赢得2012年的ImageNet竞赛以来，CNNs（卷积神经网络的缩写）已经成为深度学习中各种任务的事实算法，尤其是计算机视觉方面。从2012年至今，研究人员一直在试验并试图提出越来越好的体系结构，以提高模型在不同任务上的准确性。近期，谷歌提出了一项新型模型缩放方法：利用复合系数统一缩放模型的所有维度，该方法极大地提升了模型的准确率和效率。谷歌研究人员基于该模型缩放方法，提出了一种新型 CNN 网络——EfficientNet，该网络具备极高的参数效率和速度。今天，我们将深入研究最新的研究论文efficient entnet，它不仅关注提高模型的准确性，而且还关注模型的效率。

03

干货 | ImageNet冠军模型SE-Net详解

AI 科技评论按：本文首发于公众号 MomentaAI，已获授权转载。论文链接： https://arxiv.org/abs/1709.01507 GitHub： https://github.com/hujie-frank/SENet 在 CVPR 2017 上，来自 Momenta 的高级研发工程师胡杰，代表他所在的 WMW 团队分享了获得 ImageNet 冠军的模型SENet。以下是胡杰的现场发言整理。关于Momenta：打造自动驾驶大脑，基于深度学习的环境感知、高精度地图、驾驶决策技术，让无

05

超越谷歌MobileNet！华为提出端侧神经网络架构GhostNet｜已开源

同样精度，速度和计算量均少于此前SOTA算法。这就是华为诺亚方舟实验室提出的新型端侧神经网络架构GhostNet。

01

当CPU巨头英特尔盯上GPU：4个月6次出手，从游戏到数据中心市场全面点燃

梦晨发自凹非寺量子位 | 公众号 QbitAI 从游戏、短视频到人工智能、工业仿真再到元宇宙，这些当下风口都离不开同一种芯片—— GPU。根据IDC数据，2019年时我国AI市场每台服务器配置1-20个GPU，加权计算平均每台AI服务器配置8.02个GPU加速卡。另外GPU在所有加速卡类型里市场份额占91.9%。这样的行业趋势下，除了GPU创业公司受资本热捧以外，CPU传统巨头英特尔也加速了在GPU上的布局。今年以来，英特尔在GPU上的动作密度之高和力度之大不断刺激着业界的神经。 2月先是调整组

02

CVPR 2020 | 一种频域深度学习

深度神经网络在计算机视觉任务中取得了显著的成功。对于输入图片，现有的神经网络主要在空间域中操作，具有固定的输入尺寸。然而在实际应用中，图像通常很大，必须被降采样到神经网络的预定输入尺寸。尽管降采样操作可以减少计算量和所需的通信带宽，但它会无意识地移除冗余和非冗余信息，导致准确性下降。受数字信号处理理论的启发，我们从频率的角度分析了频谱偏差，并提出了一种可学习的频率选择方法，可以在不损失准确性的情况下移除次相关的频率分量。在下游任务中，我们的模型采用与经典神经网络（如ResNet-50、MobileNetV2和Mask R-CNN）相同的结构，但接受频域信息作为输入。实验结果表明，与传统的空间降采样方法相比，基于静态通道选择的频域学习方法可以实现更高的准确性，同时能够减少输入数据的大小。具体而言，在相同的输入尺寸下，所提出的方法在ResNet-50和MobileNetV2上分别实现了1.60%和0.63%的top-1准确率提升。当输入尺寸减半时，所提出的方法仍然将ResNet-50的top-1准确率提高了1.42%。此外，我们观察到在COCO数据集上的分割任务中，Mask R-CNN的平均精度提高了0.8%。

04

索尼大法好，224秒在ImageNet上搞定ResNet-50

随着数据集和深度学习模型的规模持续增长，训练模型所需的时间也不断增加，大规模分布式深度学习结合数据并行化是大幅减少训练时间的明智选择。然而，在大规模 GPU 集群上的分布式深度学习存在两大技术难题。第一大难题是大批量训练下的收敛准确率下降；第二大难题是在 GPU 之间进行梯度同步时的信息交流成本。我们需要一种解决这两大难题的分布式处理新方法。

04

技巧只能源码找？李沐带你纵览卷积网络实战中的惊艳技艺

作者：Tong He、Zhi Zhang、Hang Zhang、Zhongyue Zhang、Junyuan Xie、Mu Li

04

首个基于时序平移的视频迁移攻击算法，复旦大学研究入选AAAI 2022

近年来，深度学习在一系列任务中（例如：图像识别、目标识别、语义分割、视频识别等）取得了巨大成功。因此，基于深度学习的智能模型正逐渐广泛地应用于安防监控、无人驾驶等行业中。但最近的研究表明，深度学习本身非常脆弱，容易受到来自对抗样本的攻击。对抗样本指的是由在干净样本上增加对抗扰动而生成可以使模型发生错误分类的样本。对抗样本的存在为深度学习的应用发展带来严重威胁，尤其是最近发现的对抗样本在不同模型间的可迁移性，使得针对智能模型的黑盒攻击成为可能。具体地，攻击者利用可完全访问的模型（又称白盒模型）生成对抗样本，来攻击可能部署于线上的只能获取模型输出结果的模型（又称黑盒模型）。此外，目前的相关研究主要集中在图像模型中，而对于视频模型的研究较少。因此，亟需开展针对视频模型中对抗样本迁移性的研究，以促进视频模型的安全发展。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭