前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微软116页GPT4V测评报告中英对照版|多模态的新时代

微软116页GPT4V测评报告中英对照版|多模态的新时代

作者头像
技术人生黄勇
发布2024-07-19 16:12:19
620
发布2024-07-19 16:12:19
举报
文章被收录于专栏:技术人生黄勇

微软发布了具备视觉功能的 GPT-4V 模型相关的研究报告,详细探究了这一模型在不同领域和任务上的卓越表现。该报告涵盖了广泛的视觉和视觉语言场景,包括图像描述、多模态知识、场景文本理解以及情感理解等。这一重要的里程碑标志着大型模型的快速发展,同时也引领了新的人机交互方法,将机器的自主行动和推理能力带入了百姓的日常生活。

01、上个月底,OpenAI发布了具有视觉功能的GPT-4V(ision)。几天后,微软发布了关于这个模型的研究报告。

今天分享的这个报告是中英文对照版,文件比较大,56.9M,放在公众号的「AI学习资料」网盘,关注公号后,自动发送网盘链接,《微软_GPT4v_双语对照》在“8.AI模型介绍”部分。

报告重点探索了GPT-4V 在不同领域和任务上的能力质量和通用性。

第 4 节提供了涵盖广泛视觉(a wide range of vision)和视觉语言场景(vision-language scenarios)的全面分析。

包括不同领域的图像描述和识别、密集视觉理解(dense visual understanding)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understanding)、文档推理(document reasoning)等等。

第 6 节研究 GPT-4V 在时间(temporal)、动画(motion)和视频理解(video understanding)方面的能力。第 7 节探讨抽象视觉理解(abstract visual understanding)和推理能力(reasoning capability)。

第 8 节则研究了情绪(emotion)和情感理解(sentiment understanding)。

第10节设想了可以基于GPT-4V构建的强大的未来系统,例如多模态插件(multimodal plugins)、多模态链(multimodal chains)、自我反思(self-reflection)、自我一致性(self-consistency)和检索增强(retrieval-augmented)的LMM等。

02、感觉大模型发展得太快,相应模型评测的标准都快跟不上了。

前一阵刚刚看过多模态的评估标准:《MM-Vet的多模态评估标准如何评估大型多模态模型(LMM)在复杂任务上的表现》,这次就在微软的报告中看到了这个评估标准的一个评估项:“空间关系的理解 - 人比车大吗?”

在我看来,具有视觉功能的GPT4V,一项重要的里程碑意义就是开创了新的人机交互方法。‍‍‍‍‍‍‍‍‍‍‍‍‍

从计算机诞生起,从打孔的纸带开始,到可以接受键盘字符和语音指令的输入。而到了大模型时代,机器可以直接接受视觉的输入,并产生相应的逻辑、推理以及反馈。

GPT4V给大模型装上了眼睛,如果给它一个物理世界的躯体,可控制的身体部位以及各种工具,使得它可以去影响真实的物理世界,它能做什么?它会做什么?

而这一点的实现,也进一步证实了《大模型应用发展的方向|代理 Agent 的兴起及其未来(上)》文章中提到,具有较强自主行动和推理能力的机器人走入百姓平常生活。

嗯,当然,也有另外一种可能。。。。。。

阅读推荐:

StreamingLLM 框架:利用最新标记让 AI 记住你的话、创作长篇小说,探索无限长度文本

大规模语言模型从理论到实践:模型基础、数据、强化学习、应用、评估

AI技术的思考与实践:AI大模型、技术细节、应用发展

AI大模型LLM可以帮助企业做什么?

推荐一个金融分析的开源大模型项目FinGLM

大模型应用发展的方向|代理 Agent 的兴起及其未来(下)

推荐三个搭建专有知识库+大模型智能助手开源项目

国外报告90%的AI类产品公司已经实现盈利,而国内大模型和AIGC的访谈说太卷了

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 技术人生黄勇 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档