首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

MCTF 即插即用 | 多准则Token融合让DeiT将FLOPs减少了44%,性能却得到了提升

视觉Transformer [12](ViT)被提出用于借助自注意力机制解决视觉任务,这一机制最初是为自然语言处理任务而开发的。随着ViT的出现,Transformers已成为广泛视觉任务的主流架构,例如,分类,目标检测,分割等。仅由自注意力和多层感知机(MLP)构建的ViTs,与传统方法(如卷积神经网络(CNN))相比,提供了极大的灵活性和令人印象深刻的性能。然而,尽管有这些优势,自注意力关于 Token 数量的二次计算复杂性是Transformers的主要瓶颈。随着对大规模基础模型(如CLIP)的兴趣日益增长,这一局限变得更加重要。为此,一些研究提出了有效的自注意力机制,包括在预定义窗口内的局部自注意力。

01
领券