首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

HuggingGPT:借力LLM使用Hugging Face模型来解决复杂的AI任务

浙江大学和微软亚洲研究院的研究人员最近发表了一篇论文,探讨使用大型语言模型(LLM)作为控制器来操纵 Hugging Face 等社区中已有的人工智能模型。

这项研究背后的核心思想是使用 LLM(如 ChatGPT)的高级语言理解和生成能力将不同领域现有的 AI 模型连接起来。

具体来说,在接收到用户请求时,我们使用 ChatGPT 进行任务规划,根据 Hugging Face 社区提供的模型功能描述选择模型,然后使用所选的 AI 模型执行每一项子任务,并汇总执行结果生成响应。

研究人员宣称,他们的方法使解决语言、视觉、语音及其他领域的复杂人工智能任务成为可能。

为了在 ChatGPT 和 Hugging Face 模型之间建立连接,HuggingGPT 使用了Hugging Face库中的模型描述,并将它们提供给 ChatGPT 提示符。

这个过程的第一个阶段是任务规划:ChatGPT 分析用户请求并将其分解为可以使用库中模型解决的任务。第二个阶段是选择最适合规划任务的模型。下一个逻辑步骤是执行任务并将结果返回给 ChatGPT。最后,ChatGPT 通过整合所有模型的预测来生成响应

在任务规划阶段,HuggingGPT 使用了任务规范(specifications)和示范(demonstrations)。一个任务规范包括 4 个槽,分别定义了 ID任务类型(如视频、音频等)、依赖关系(定义前置任务)和任务参数。示范将用户请求与任务规范序列关联在一起。例如,用户请求“In image /exp2.jpg, what is the animal and what is it doing?”会与一个包含 4 项任务的序列相关联:图像到文本、图像分类、对象检测以及最后的问题回答任务。

论文的 6 位作者表示,他们使用 HuggingGPT 进行了一系列实验,包括简单任务和涉及多个子任务的复杂任务。

HuggingGPT 以 ChatGPT 为中心整合了 Hugging Face 上的数百个模型,涵盖了文本分类、对象检测、语义分割、图像生成、问答、文本转语音、文本转视频等 24 项任务。实验结果证明了 HuggingGPT 在处理多模态信息和复杂人工智能任务方面的能力。

根据其创建者的说法,HuggingGPT 还有一些局限性,包括:效率和延迟,这主要与每个阶段都至少要和大型语言模型交互一次有关;上下文长度限制,这与 LLM 可以接受的最大词元数有关;系统稳定性可能因 LLM 偶尔不遵守指令而降低,也可能因为 LLM 控制的某个模型失败而降低。

原文链接:

https://www.infoq.com/news/2023/04/hugginggpt-complex-ai-tasks/

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/YclksTRtl87B7trYVDPv
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券