前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[CVPR 2022 oral | 论文简读] A-ViT:基于自适应Token策略的Vision Transformer模型

[CVPR 2022 oral | 论文简读] A-ViT:基于自适应Token策略的Vision Transformer模型

作者头像
智能生信
发布2022-12-29 16:54:09
6150
发布2022-12-29 16:54:09
举报
文章被收录于专栏:智能生信

作者 | 汪逢生 编辑 | 李仲深

论文题目

A-ViT: Adaptive Tokens for Efficient Vision Transformer

摘要

本文提出了一种对不同复杂度图像,自适应调整推理代价视觉Transformer(ViT)的方法——A-ViT。A-ViT通过在推理过程中自动减少网络中处理的视觉Transformer中的token数量来实现这一点。作者为这项任务重新制定了自适应计算时间(Adaptive Computation Time ,ACT),丢弃冗余的空间token。视觉Transformer的结构特性使本文的自适应token缩减机制能够在不修改网络结构或推理硬件的情况下加快推理速度。作者证明了A-ViT不需要额外的参数或子网络,因为本文的方法基于原始网络参数学习能够自适应停止。作者进一步引入了分布先验正则化,与之前ACT方法相比,它可以稳定训练。在图像分类任务(ImageNet1K)中,作者表明提出的A-ViT在过滤信息性空间特征和减少总体计算量方面具有很高的效率。该方法将DeiT-Tiny和DeiT-Small的吞吐量分别提高了62%和38%,准确率仅下降0.3%,大大优于现有技术。

论文链接

https://arxiv.org/pdf/2112.07658.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档