
1. NLP注意力机制开山之作
《Attention is All You Need》
https://arxiv.org/pdf/1706.03762
2. 视觉Transformer的开山之作 - 图像分类ViT
《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scalehttps://arxiv.org/abs/2010.11929
3. 端到端的Transformer对象检测DeTr
《End-to-End Object Detection with Transformers》
https://arxiv.org/pdf/2005.12872v3
4. RTFormer - 高效实时的语义分割Transformer
《RTFormer: Efficient Design for Real-Time Semantic Segmentation》
https://arxiv.org/pdf/2210.07124
5. CLIP - 文本与图像多模态的开山之作
《CLIP -Contrastive Language–Image Pre-training》

6. QFormer - 《 Vision Transformer with Quadrangle Attention》


7. Video QFormer - 视频多模态问答模型!
https://openreview.net/pdf?id=R6sIi9Kbxv
8. stablediffusion - 文生图模型
9. SAM 分割一切 零样本的视觉语义分割大模型
https://arxiv.org/pdf/2304.02643
10. BEiT - 搞定一切视觉任务与视觉语言模型
https://arxiv.org/pdf/2208.10442
上面的论文涵盖了视觉的零代码分类、对象检测、实例分割、视觉语义描述、VQA、视觉图像解释、涉及VLM与多模态的图像到文本、文本到图像、图像到图像、文本图像对齐等主流技术架构与模型结构。
仅供参考,整理于2025-05-26
欢迎补充更多!