前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MOAT项目原作解读:强大的可扩展视觉骨干网络

MOAT项目原作解读:强大的可扩展视觉骨干网络

作者头像
机器之心
发布2023-03-29 12:51:26
3570
发布2023-03-29 12:51:26
举报
文章被收录于专栏:机器之心

机器之心最新一期线上分享邀请到了约翰霍普金斯大学计算机系博士生杨程麟,为大家解读他们近期的工作 MOAT。

本次分享的工作 MOAT (收录于 ICLR2023)是一系列基于移动卷积(即倒数残差模块)和注意力机制的神经网络。与目前将单独的移动卷积和 Transformer 模块堆叠在一起的工作不同,该工作有效地将它们合并成 MOAT 模块。从标准 Transformer 模块开始,该工作将其多层感知器替换为移动卷积,并重新排列其在注意力操作之前。移动卷积不仅增强了网络的表征能力,还生成了更好的下采样特征。该工作概念简单的 MOAT 网络出人意料地展现出高性能,在 ImageNet-1K / ImageNet-1K-V2 上仅用 ImageNet-22K 预训练的情况下,达到了 89.1% / 81.5% 的 top-1 准确率。

此外,MOAT 可以通过将全局注意力转换为窗口注意力,无缝地应用于需要大分辨率输入的下游任务。由于移动卷积有效地在像素之间交换局部信息(从而跨越窗口),MOAT 不需要额外的窗口移动机制。因此,在 COCO 目标检测中,MOAT 使用 227M 模型参数(单尺推理,hard NMS)达到了 59.2% box AP,在 ADE20K 语义分割中,MOAT 使用 496M 模型参数(单尺度推理)达到了 57.6% mIoU。

最后,通过简单地减小通道数量获得的 tiny-MOAT 系列也令人惊讶地超越了针对移动设备设计的 Transformer 模型,Mobile-Former 和 MobileViT。Tiny-MOAT 系列还在下游任务上进行了基准测试。该工作希望简单而有效的 MOAT 能启发更多卷积和注意力机制的无缝集成。代码公开可用。

分享主题:MOAT:强大的可扩展视觉骨干网络

分享嘉宾:杨程麟,约翰霍普金斯大学计算机系博士生,导师是 Bloomberg 杰出教授 Alan Yuille。研究方向为计算机视觉和人工智能,包括视觉骨干网络设计,知识蒸馏和强化学习。目前以第一作者身份在计算机视觉以及机器学习顶级会议上发表过多篇论文。

分享摘要:本次分享将首先从微观角度介绍 MOAT 模块结合移动卷积和注意力机制的设计原理,其次从宏观角度介绍 MOAT 系列在不同计算尺度下的设计结构,包括tiny-MOAT 系列。最后,本分享将展示 MOAT 以及 tiny-MOAT 系列在上游和下游任务上的 SOTA 性能。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/moat

2)论文链接:

https://arxiv.org/abs/2210.01820

3)代码仓库:

https://github.com/google-research/deeplab2/blob/main/model/pixel_encoder/moat.py

加群看直播

直播间:关注机器之心机动组视频号,北京时间 2 月 6 日 19:00 开播。

交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「MOAT」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档