前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基础模型定义视觉新时代:综述与展望

基础模型定义视觉新时代:综述与展望

作者头像
zenRRan
发布2023-08-22 14:30:03
2330
发布2023-08-22 14:30:03
举报
文章被收录于专栏:深度学习自然语言处理

在本次综述中,我们对视觉基础模型进行了全面回顾,包括结合不同模态(视觉、文本、音频等)的典型架构设计、训练目标(对比、生成)、预训练数据集、微调机制,以及常见的提示模式。

论文:Foundational Models Defining a New Era in Vision: A Survey and Outlook

地址:https://arxiv.org/pdf/2307.13721.pdf

项目:https://https://github.com/awaisrauf/Awesome-CV-Foundational-Modelsesome-CV-Foundational-Models

用于观察和推理视觉场景的组成性质的视觉系统是理解我们的世界的基础。现实世界环境中物体及其位置、模糊性和变化之间的复杂关系可以用人类语言更好地描述,自然地受到语法规则和其他模式(例如音频和深度)的控制。

这些模型学会了弥合这些模式之间的差距,并与大规模训练数据相结合,促进测试时的上下文推理、泛化和提示能力。这些模型被称为基础模型。

此类模型的输出可以通过人类提供的提示进行修改,而无需重新训练,例如,通过提供边界框来分割特定对象,通过询问有关图像或视频场景的问题来进行交互式对话,或者通过语言指令来操纵机器人的行为。

在本次调查中,我们对此类新兴基础模型进行了全面回顾,包括结合不同模态(视觉、文本、音频等)的典型架构设计、训练目标(对比、生成)、预训练数据集、微调机制 ,以及常见的提示模式;文本、视觉和异构。

我们讨论计算机视觉基础模型的开放挑战和研究方向,包括评估和基准测试的困难、现实世界理解的差距、上下文理解的局限性、偏见、对抗性攻击的脆弱性和可解释性问题。

我们回顾了该领域的最新发展,系统、全面地涵盖了基础模型的广泛应用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档