首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >视觉大模型与多模态看这十篇论文就够了!

视觉大模型与多模态看这十篇论文就够了!

作者头像
OpenCV学堂
发布2026-04-02 19:18:46
发布2026-04-02 19:18:46
2140
举报

1. NLP注意力机制开山之作

《Attention is All You Need》

代码语言:javascript
复制
https://arxiv.org/pdf/1706.03762

2. 视觉Transformer的开山之作 - 图像分类ViT

代码语言:javascript
复制
《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
代码语言:javascript
复制
https://arxiv.org/abs/2010.11929

3. 端到端的Transformer对象检测DeTr

《End-to-End Object Detection with Transformers》

代码语言:javascript
复制
https://arxiv.org/pdf/2005.12872v3

4. RTFormer - 高效实时的语义分割Transformer

代码语言:javascript
复制
《RTFormer: Efficient Design for Real-Time Semantic Segmentation》
https://arxiv.org/pdf/2210.07124

5. CLIP - 文本与图像多模态的开山之作

《CLIP -Contrastive Language–Image Pre-training》

6. QFormer - 《 Vision Transformer with Quadrangle Attention》

7. Video QFormer - 视频多模态问答模型!

代码语言:javascript
复制
https://openreview.net/pdf?id=R6sIi9Kbxv

8. stablediffusion - 文生图模型

9. SAM 分割一切 零样本的视觉语义分割大模型

代码语言:javascript
复制
https://arxiv.org/pdf/2304.02643

10. BEiT - 搞定一切视觉任务与视觉语言模型

代码语言:javascript
复制
https://arxiv.org/pdf/2208.10442

上面的论文涵盖了视觉的零代码分类、对象检测、实例分割、视觉语义描述、VQA、视觉图像解释、涉及VLM与多模态的图像到文本、文本到图像、图像到图像、文本图像对齐等主流技术架构与模型结构。

仅供参考,整理于2025-05-26

欢迎补充更多!

QT5 + OpenCV4.8从入门到实战 路线图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • QT5 + OpenCV4.8从入门到实战 路线图
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档