文章/答案/技术大牛

发布

今日最佳NLP大模型论文解读：Advancing Spatial Reasoning in Large Language....

文章来源：企鹅号 - 夕小瑶科技说

本文由赛博马良（http://saibomaliang.com）AI专家——AI论文解读达人推荐选题&撰写生成。

如需查看本月份其他每日最佳NLP大模型论文解读，欢迎移步 http://saibomaliang.com ～

复旦新作SpeechAgents：基于多模态语言模型的多智能体系统，模拟人类沟通

引言：人类沟通的多模态模拟

人类沟通是一个复杂多样的过程，不仅涉及语言、常识、文化背景等多种因素，还需要多模态信息的参与，如语音。基于大型语言模型（LLM）的多智能体系统在模拟人类社会方面展现出了令人瞩目的性能。

我们是否可以利用基于LLM的多智能体系统来模拟人类沟通呢？

然而，当前基于LLM的多智能体系统主要依赖文本作为主要媒介。

在本文中，我们提出了SpeechAgents，一个基于多模态LLM的多智能体系统，旨在模拟人类沟通。SpeechAgents利用多模态LLM作为个体智能体的控制中心，并采用多模态信号作为智能体之间交换信息的媒介。

此外，我们提出了多智能体调整策略，以增强LLM的多智能体能力，而不损害其一般能力。为了加强和评估人类沟通模拟的有效性，我们构建了人类沟通模拟基准测试。

实验结果表明，SpeechAgents能够模拟具有一致内容、真实节奏和丰富情感的人类沟通对话，并且即使在多达25个智能体的情况下也展现出了出色的可扩展性，可应用于剧本创作和音频小说生成等任务。代码和模型将在项目地址开源。

论文标题：SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems

论文解读链接：

https://www.saibomaliang.com/generate?session_id=c54820c9-9f89-487c-8704-75cad38eb71f

项目地址：

https://github.com/0nutation/SpeechAgents

多模态人类沟通模拟的挑战与SpeechAgents的提出

人类沟通是一个复杂多样的过程，不仅涉及语言、常识、文化背景等多个因素，还需要多模态信息的参与，如语音。基于大型语言模型（LLM）的多智能体系统在模拟人类社会方面展现出了有希望的性能。但是，当前基于LLM的多智能体系统主要依赖文本作为主要媒介。这些系统在模拟多模态人类沟通时，往往专注于模态扩展，但在不依赖额外文本参考的情况下，未能生成高质量的对话内容。

为了解决这一问题，我们提出了SpeechAgents，一个基于多模态LLM的多智能体系统，旨在模拟人类沟通。SpeechAgents利用多模态LLM作为个体智能体的控制中心，并采用多模态信号作为智能体之间信息交换的媒介。此外，我们提出了多智能体调整策略，以增强LLM的多智能体能力，同时不损害其通用能力。为了加强和评估人类沟通模拟的有效性，我们构建了人类沟通模拟基准。实验结果表明，SpeechAgents能够生成具有一致内容、真实节奏和丰富情感的人类沟通对话，并且即使在多达25个智能体的情况下也展现出了出色的可扩展性，可应用于戏剧创作和音频小说生成等任务。

1. 多模态人类沟通模拟的挑战

当前的多模态人类沟通模拟系统在模态扩展方面取得了一定的进展，但在不依赖额外文本参考的情况下，未能生成高质量的对话内容。这些系统主要依赖文本作为信息交换的媒介，缺乏感知和生成多模态信号的能力。现有的多模态智能体主要使用基于文本的LLM作为中心控制单元，通过使用模态特定的专家工具与其他模态进行交互。在这样的系统中，多模态能力并不是智能体固有的，与文本不同，这给跨模态信息整合和知识转移带来了挑战。

2. SpeechAgents的提出

为了模拟人类沟通，我们提出了SpeechAgents，一个基于多模态LLM的多智能体系统。SpeechAgents采用支持多模态输入和输出的SpeechGPT作为个体智能体的控制中心。不同的智能体通过语音信号进行交流。为了增强和评估多模态人类沟通模拟能力，我们引入了人类沟通模拟基准，并提出了多智能体调整策略，以改善LLM的多智能体能力，同时不损害其通用能力。实验结果表明，SpeechAgents能够生成具有准确内容、真实节奏和丰富情感的人类沟通对话，并展现出了出色的可扩展性，可应用于戏剧创作和音频小说生成等任务。

SpeechAgents系统架构解析

SpeechAgents系统的架构包括多模态多智能体系统和多智能体调整两个主要部分。

1. 多模态多智能体系统

多模态多智能体系统的特点包括：(1) 使用多模态LLM作为个体智能体的中心控制单元；(2) 多模态信号作为不同智能体之间通信的媒介。系统中的每个智能体都有其场景、角色和个人资料，这些信息指导智能体的行动和互动。智能体通过语音消息流与其他智能体进行交流，每个智能体的发言都作为消息传递给所有其他智能体，并存储在语音消息流银行中以供后续回合参考。

2. 多智能体调整

为了增强LLM的多智能体能力，我们引入了多智能体调整策略，类似于(Zeng et al., 2023)。多智能体调整包括两个组成部分：从人类沟通模拟基准数据集中派生的智能体轨迹指令数据集和混合调整策略。这种策略旨在增强智能体的多智能体能力，同时保持其通用能力。智能体轨迹指令数据集用于微调LLM，增强SpeechGPT的多智能体能力。同时，我们使用SpeechInstruct数据集中的模态指令集来保持模型的通用能力。训练目标是在保持通用能力的同时，增强智能体的多智能体能力。

通过这种系统架构，SpeechAgents能够在不同的人类沟通场景中生成具有一致性和质量的对话，同时保持对话内容的自然流畅和情感丰富，证明了其在模拟人类沟通方面的潜力。

人类沟通模拟基准（Human-Communication Simulation Benchmark）的构建

在构建人类沟通模拟基准（Human-Communication Simulation Benchmark）的过程中，我们采取了分层的方法，以确保生成的数据能够全面反映人类沟通的复杂性。这一过程涉及到场景生成、角色分配和剧本编写等多个步骤。

1. 场景生成（Scene Generation）

首先，我们利用ChatGPT生成各种沟通场景，每个场景都拥有独特的故事背景。我们提供了详细的时间和地点描述，以及整体氛围，确保模型能够在不同背景下产生富有想象力和多样性的故事。例如，我们生成了一个夏季社区烧烤的场景，其中社区成员组织了一个夏日烧烤活动，旨在增进人们之间的团结和友谊。

2. 角色分配（Role Assignment）

对于每个特定场景，我们指导ChatGPT创建一个多样化的角色池，包括30个命名角色，每个角色都有简短的描述，涵盖他们的年龄、背景、个性和当前状态。这些角色的描述有助于为对话场景增添变化和深度。例如，角色池中可能包括一个45岁的烧烤大师、一个30岁的活动策划者、一个40岁的当地商人和一个33岁的积极父母。

3. 剧本编写（Scripts Crafting）

在确定了沟通场景和背景后，我们通过从角色池中随机抽取特定数量的角色来生成对话剧本。我们设置了角色数量为2、4、6、8和10。然后，我们指导ChatGPT生成符合这些条件的沟通剧本。这些剧本形式为多方、多轮对话，确保对话内容与场景描述相符，每个角色的发言都与其个人资料相符。为了增强模拟的真实性，每个角色都需要输出文本内容和相应的发言风格。

4. 模态扩展（Modality Extension）

我们的目标是构建多模态人类沟通剧本，将沟通场景从文本扩展到语音。由于SpeechGPT使用离散单元作为语音表示，我们采用了预训练的文本到单元生成器，将文本剧本转换为单元形式的口语剧本。

实验设置与评估方法

为了评估SpeechAgents在模拟人类沟通方面的有效性，我们进行了一系列实验。

1. 多模态多智能体系统

我们建立了一个多模态多智能体系统，其中每个智能体都采用SpeechGPT作为控制中心，并通过语音信号与其他智能体进行交流。智能体之间的交流通过一个维护语音消息流的银行来进行，每个智能体的发言都作为消息传递给其他所有智能体。

2. 多智能体调优（Multi-Agent Tuning）

我们引入了多智能体调优来增强LLM的多智能体能力，同时保持其一般能力。这包括从人类沟通模拟基准数据集中派生的智能体轨迹指令数据集，以及混合调优策略。我们将智能体轨迹指令数据集用于微调语言模型（LLM），以增强SpeechGPT的多智能体能力。

3. 评估方法

我们使用人类沟通模拟基准的测试集和ChatGPT（GPT-4）作为评估器，主要从场景和角色的一致性以及剧本内容的质量和逻辑连贯性两个角度评估生成的剧本。我们还评估了SpeechAgents在语音到语音对话任务中的表现，以评估其在更一般的对话任务中的能力。

实验结果表明，SpeechAgents能够生成具有准确内容、真实节奏和丰富情感的类人沟通对话，并且即使在多达25个智能体的情况下也展现出了出色的可扩展性，可应用于剧本创作和有声小说生成等任务。

实验结果与分析

在本研究中，我们提出了SpeechAgents，这是一个基于多模态大型语言模型（LLM）的多智能体系统，旨在模拟人类交流。我们采用了SpeechGPT作为每个智能体的控制中心，并通过语音信号作为智能体之间信息交换的媒介。为了增强和评估多模态人类交流模拟的有效性，我们引入了人类交流模拟基准（Human-Communication Simulation Benchmark）。实验结果表明，SpeechAgents能够生成具有准确内容、真实节奏和丰富情感的类人交流对话，并且即使在涉及多达25个智能体的情况下，也展示出了卓越的可扩展性，可应用于剧本创作和音频小说生成等任务。

1. 实验设置

我们使用了从人类交流模拟基准数据集中解析出的多智能体轨迹指导数据集，并结合SpeechInstruct数据集，通过混合调优（Mix-Tuning）策略来增强SpeechGPT的多智能体能力，同时保持其一般能力。我们在24个A100 GPU上训练了SpeechGPT，使用了1152的批量大小和1024的最大序列长度，训练步数为77000步。对于多智能体调优，我们以288的批量大小和4096的最大序列长度训练了6000步。

2. 基线系统

我们与几个基线系统进行了比较，包括Speech-ChatGPT、LLaMA2-MAT和Speech-LLaMA2-MAT。这些系统分别基于不同的模型和技术构建，以提供对比。

3. 评估

我们从两个角度评估了SpeechAgents的性能：一是模拟人类交流的能力，二是一般能力。我们使用了人类交流模拟基准的测试集，并利用ChatGPT（GPT-4）作为评估器。一致性得分（Consistency Score）评估脚本是否与提供的场景和角色描述以及上下文元素（如时间和氛围）一致。质量得分（Quality Score）关注语言质量、情感表达、逻辑一致性和对话内容的整体合理性。此外，我们还评估了SpeechAgents在语音对语音指令遵循任务中的性能，以评估其一般能力。

混合调优（Mix-Tuning）与“思考前言”（Think Before You Speak）的效果

1. 混合调优的效果

混合调优是指在不牺牲模型的一般能力的前提下，通过在人类交流模拟基准数据集和SpeechInstruct数据集上进行微调，来增强SpeechGPT的多智能体能力。我们发现，移除混合调优会显著降低在语音对语音对话中的性能，但对人类交流模拟任务的性能没有影响。这表明混合调优在保持一般能力方面非常有效。

2. “思考前言”的效果

“思考前言”是指在智能体生成语音输出之前，首先进行内部思考的过程。这种方法类似于链式思考（Chain-of-Thought），它通过逐步推进显著增强了LLM的推理能力。我们的实验表明，移除“思考前言”会使得人类交流模拟任务变得无法实现，这突显了这一设计元素的重要性。

3. 智能体数量的可扩展性

我们的实验还展示了SpeechAgents框架在智能体数量增加时的强大可扩展性。即使在涉及多达25个智能体的对话场景中，也能够生成具有相对较高一致性和质量的脚本。这表明SpeechAgents能够泛化到训练集中遇到的最大智能体数量之外的场景。

4. 案例研究

我们通过一个案例研究来进一步说明SpeechAgents的效果。在一个夏季社区烧烤活动的场景中，不同角色之间的对话能够展示出角色的个性和情感，同时内容与场景背景保持一致。例如，烧烤大师迈克尔·特纳（Michael Turner）以友好的态度负责烧烤站，而活动策划者杰西卡·罗德里格斯（Jessica Rodriguez）则以充满活力的方式组织活动。这些对话不仅展示了SpeechAgents在生成具有情感丰富度和节奏真实性的对话方面的能力，而且还证明了其在模拟复杂人类交流场景中的有效性。

代理数量可扩展性的探讨

在构建模拟人类交流的多模态多代理系统中，代理数量的可扩展性是一个关键因素。理想的系统应能够在不牺牲对话质量的前提下，支持大量代理的参与。在SpeechAgents系统中，我们通过实验探讨了代理数量对系统性能的影响。

1. 实验设计与评估指标

我们设计了一系列实验，以评估系统在不同代理数量下的表现。实验中，代理数量从2个逐渐增加到25个，以模拟不同规模的人类交流场景。我们采用一致性得分（Consistency Score）和质量得分（Quality Score）作为评估指标。一致性得分评估生成的脚本是否与提供的场景和角色描述相符，而质量得分则关注对话内容的语言质量、情感表达、逻辑一致性以及整体合理性。

2. 实验结果与分析

根据实验结果（如图4所示），随着代理数量的增加，一致性得分和质量得分并没有显著下降，几乎保持不变。即使在涉及25个代理的对话场景中，系统仍能生成具有相对较高一致性和质量的脚本。这一结果表明，SpeechAgents框架具有强大的可扩展性，能够泛化到训练集中未遇到的更多代理数量的场景。

结论与未来展望

本研究提出了SpeechAgents，一个基于多模态大型语言模型（LLM）的多代理系统，旨在模拟人类交流。SpeechAgents利用多模态LLM作为代理的中心控制单元，并采用多模态信号作为代理间信息交换的媒介。实验结果表明，SpeechAgents能够模拟具有准确内容、真实节奏和丰富情感的人类交流对话，并且即使在多达25个代理的情况下，也展现出了卓越的可扩展性。这使得SpeechAgents可以应用于剧本创作、有声小说生成等任务。

在未来的研究中，我们将探索更多的应用场景，并进一步优化系统的性能。我们也计划开源代码和模型，以便社区能够对SpeechAgents进行测试和改进。此外，我们将继续研究如何提高系统在更大规模代理参与时的性能，以及如何进一步提升对话内容的质量和情感表达的丰富性。随着人工智能技术的不断进步，我们相信SpeechAgents及其后续版本将在模拟人类交流方面发挥更大的作用。

注：本文由赛博马良（http://saibomaliang.com）AI专家——AI论文解读达人推荐选题&撰写生成。

如需查看本月份其他每日最佳NLP大模型论文解读，欢迎移步 http://saibomaliang.com ～

发表于: 2024-01-092024-01-09 17:43:22
原文链接：https://page.om.qq.com/page/OIAo5aRQNmk_yqEGpgNhCfSQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

今日最佳NLP大模型论文解读：Advancing Spatial Reasoning in Large Language....

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐