前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MetaFormer 用于计算机视觉任务的派生模型

MetaFormer 用于计算机视觉任务的派生模型

作者头像
代码医生工作室
发布2021-12-09 12:34:26
6120
发布2021-12-09 12:34:26
举报
文章被收录于专栏:相约机器人相约机器人

过去几年深度学习领域的主要炒作绝对是Transformers 。自从在 2017 年发表被超级引用的论文Attention Is All You Need以来,许多研究人员一直在努力改进它们并将其应用于每个可能的领域。虽然最初为 NLP 而生,但人们对应用于视觉的 Transformers 的兴趣呈指数级增长,并且自 ViT 推出以来,许多研究小组已经提出了其架构的不同变体。

ViT 编码器有两个主要组件:第一个是著名的基于注意力的编码器,它处理混合输入标记的信息;第二个包含具有典型扩展-压缩结构的 MLP。历史上注意力模块一直被认为是Transformer能力的核心。出于这个原因大多数研究人员都专注于如何改进注意力模块。尽管如此最近的工作已经证明了 MLP 的能力以及实现可比结果的能力。这方面引起了人们的怀疑,即 self-attention 模块并不是所需要的全部。

Sea AI Lab 与新加坡国立大学一起遵循这一直觉来定义 MetaFormer。假设与特定的注意力模块相比,通用的 Transformer 架构更为基础。为了证明这一点,用“非常简单”的非参数空间平均池化层替换了注意力模块,并在不同的计算机视觉任务上取得了有竞争力的结果,例如图像分类、对象检测、实例分割和语义分割。该模型被命名为PoolFormer,并在性能、参数数量和 MAC(乘积和累加)方面与经典的 Transformer(例如 DeiT)和 MLP-like(例如 ResMLP)模型进行了比较。

在此架构中,输入首先由补丁嵌入处理,类似于原始 ViT 实现,由n=C1卷积滤波器强制执行,具有 7×7 窗口和步长值为 4,产生维度为C1 x H的张量/4 x 宽/4。然后将输出传递给一系列 PoolFormer 块。在 PoolFormer 中,注意力模块被一个stride=1的池化块代替,它执行平均池化(简单地使每个令牌平均聚合到其附近的令牌特征)。在跳过连接之后,第二个块由一个两层 MLP 组成,与原始 Transformer 编码器一样。

重复整个过程,构建4个阶段的层次结构,通过池化将图像的原始高度和宽度压缩到H/32和W/32。根据嵌入尺寸(小型或中型),即根据四个嵌入尺寸(C1、C2、C3、C4)定义了两种不同类型的配置。为了更好地理解上图,假设总共有L=12 个PoolFormer 块,阶段 1、2 和 4 将包含L/6=2 个PoolFormer 块,而阶段 3 将包含L/2=6个块。经过消融研究,作者决定使用 Group Normalization 作为归一化技术,GeLu 作为激活函数。

这种非常简单的实现结果令人惊讶。对于图像分类任务,在 ImageNet-1K 数据集上进行测试,PoolFormer 达到了 82.1% 的 top-1 准确率,超过了经典的 Transformer 实现,尤其是 DeiT 0.3%,参数减少了 35%,MAC 减少了 48%,并且类似于 MLP ResMLP 等实现减少了 1.1%,参数减少了 52%,MAC 减少了 60%。在对象检测、实例分割和语义分割任务中表现出类似的性能。

总之,作者将整个 Transformer 架构抽象为一个通用的 MetaFormer,其中没有指定令牌混合器。该理论的核心是令牌混合器不是获得可接受性能的必要条件,而主要电源在通用结构中。为了证明这一点,实现了一个基于非参数平均池化的非常简单的令牌混合器,它获得了与基于 Transformer 的 SOTA 架构相当的结果。

本文的主要目的是让计算机视觉社区不仅关注令牌混合器,还关注通用 MetaFormer 架构,以在不同领域实现越来越高的性能。

论文:

https://arxiv.org/abs/2111.11418v1

GitHub:

https://github.com/sail-sg/poolformer

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档