题目:Multimodal Agents: Chaining Multimodal Experts with LLMs 来源:CVPR2023 Tutorial Talk 演讲人:Linjie Li 视频链接:https://www.youtube.com/watch?v=Wb5ZkZUNYc4&list=PLB1k029in3UhWaAsXP1DGq8qEpWxW0QyS&index=6 内容整理:王怡闻 在 Linjie Li 的演讲中,她回答了多模态智能体中的重要问题之一:如何用大模型将多模态智能体串联起来。
下图展示了建模范式的更新过程:
图1
图2
因此,利用大型语言模型的优势,研究人员目前正在探索一种新的范式,从解决有限的预定义问题的独立模型,转向结合多个工具或专家模型,以解决复杂的开放性问题。只需要给这个系统一些示例,让它学习在不同的场景下该调用什么API。如下图所示:用户直接与LLM进行交互,具体的实施方案由LLM自己设计,最终由LLM返回结果给用户。
图3
这种范式在NLP领域已有所应用,将一些特定的工具(如搜索引擎等)应用到更加复杂的任务上。
图4
受到NLP领域的启发过去几个月间,多模态智能体领域的进展十分迅速,并且涉及到了多个领域,如下图。后面将以MM-ReAct作为例子展示多模态智能体是如何工作的。
图5
MM-ReAct的完整的工作流程如下: 我们将一个图片发送给ChatGPT,ChatGPT就会调用外部接口去完成这个任务。
图6
在这个例子中,用户上传了五张收据单,ChatGPT根据接收到的信息进行推理,回答了用户诸如:“我今天在便利店花了多少钱?”这类问题。
图7
在这个例子中,用户上传了一段篮球赛的视频,并就其中的赛点等细节进行提问,ChatGPT分析视频做出回答,并能根据用户的要求为用户剪辑片段。
图8
通过上述新范式,现有的模型可以被继续扩展。例如,我们尝试将MM-ReAct原本使用的ChatGPT升级到仅限语言的GPT-4来处理任务,可以取得比原来更出色的效果。而随着大模型的不断更新,在这个新范式下建立的多模态智能体系统的能力也会随之增强。
图9
我们可以将不同的模型结合到一起,以应对更复杂的任务。例如,将GPT和SAM结合到一起,用户可以指导模型对图像进行修改。
图10
通过接入更多的工具,系统的能力以及处理任务的类型也在不断扩展。例如,HuggingGPT接入了HuggingFace上所有的模型,并结合了ChatGPT完成模型选择的任务。
图11
也有一些工作尝试优化这个新范式中的规划(Planning)部分。前面提到多模态代理使用自然语言来提示大语言模型进行规划并决定使用哪些工具可以使用编程语言来更准确地执行,但是由于代码仍然是由大语言模型生成的,因此仍然存在不准确的问题。
最近的一项研究尝试通过自我评估来提高准确性。我们在系统中添加了检查和学习阶段,当一轮计划和执行完成时,系统检查结果是否推理成功,如果成功,它将自动添加这次推理到示例中来指导大语言模型。
图12
提高准确性的另一个方法是将系统与指令调优结合起来,生成指令 API 对的数据集,以调整较小的大语言模型。
图13
最后,我们展望了这一新范式的未来方向,表明我们还可以采取哪些措施来进一步改进当前的系统。
设想一个情况:在全新的任务场景下,没有合适的工具可以调用,是否可以自己生成一个合适的工具来使用?
图14
第二个方向是检索增强的多模态代理。例如,如果我们有一个包含产品图像的数据库和价格列表。即使只有图像作为提示时,多模态代理也可以检索到相应的价格。
图15
第三个方向是构建一个系统的方法来评估此类系统使用多模式工具的准确性。
图16
附上演讲视频:
http://mpvideo.qpic.cn/0bc3guaamaaaaeaot26rgnsfanoday2qabqa.f10002.mp4?