AI多模态、多智能体故事生成系统:MM-StoryAgent
MM-StoryAgent是由上海交通大学与阿里巴巴联合开源的一款创新AI系统,致力于自动生成富有创意和沉浸感的故事视频。它不仅支持文本生成,还能同步生成图像、音效、背景音乐等多种模态内容,为儿童故事创作提供了高效且灵活的解决方案。该系统通过模拟专家与新手作家的对话,优化创作过程,确保故事的质量和完整性。
通过多阶段写作流程,MM-StoryAgent能够首先构建故事大纲,再逐步扩展为完整的章节,确保内容丰富、逻辑清晰。此外,系统内置的多个智能体将文本内容转化为不同模态的提示,并采用“修订-审核”机制不断迭代优化,确保各模态之间的内容一致性,特别是在图像生成时角色形象的一致性。
该系统的开源代码可通过GitHub获取:MM-StoryAgent GitHub:https://github.com/MaoTouHU/QW_StoryAgent
MM-StoryAgent是一个多智能体框架,通过结合大规模语言模型(LLM)和多种模态专家工具,打造沉浸式故事生成体验。系统设计了灵活且可定制的工作流程,允许用户根据需求定义和优化生成过程,以提高创作质量。
其核心特点包括:
MM-StoryAgent适用于各种创意内容生成,特别是在儿童教育和娱乐领域,能够提供高质量、富有表现力的故事视频。
要使用MM-StoryAgent,首先需要安装依赖项并将其作为包安装:
pip install -r requirements.txt
pip install -e .
随后,您可以通过配置文件启动系统:
python run.py -c configs/mm_story_agent.yaml
每个智能体的配置和调用方式也十分灵活,可以根据需要调整各类参数,以定制不同的创作需求。
在线体验:https://huggingface.co/spaces/wsntxxn/MM-StoryAgent
本地环境配置项:
MM-StoryAgent可以通过配置文件调用:
python run.py -c configs/mm_story_agent.yaml
每个Agent的调用格式如下:
story_writer: # agent name
tool: qa_outline_story_writer # name registered in the definition
cfg: # parameters for initializing the agent instance
max_conv_turns: 3
...
params: # parameters for calling the agent instance
story_topic: "Time Management: A child learning how to manage their time effectively."
...
新Agent的定制可以参考music_agent.py。Agent类需要实现__init__
和call
才能正常工作,如下所示:
from typing import Dict
from mm_story_agent.base import register_tool
@register_tool("my_speech_agent")
class MySpeechAgent:
def __init__(self, cfg: Dict):
# For example, the agent need `attr1` and `attr2` for initilization
self.attr1 = cfg.attr1
self.attr2 = cfg.attr2
...
def call(self, params: Dict):
# For example, calling the agent needs `voice` and `speed` parameters
voice = params["voice"]
speed = params["speed"]
...
然后只需修改配置即可调用Agent,例如:
speech_generation:
tool: my_speech_agent
cfg:
attr1: val1
attr2: val2
params:
voice: en_female
speed: 1.0
StoryAgent团队使用 GPT-4 根据多个方面自动评估故事质量。StoryAgent团队的故事写作Agent与直接提示 LLM 撰写故事进行了比较。评估分数显示了StoryAgent团队的多Agent、多阶段故事写作流程的优势。
评分标准 | 吸引力 | 温暖 | 教育 | 平均的 | |
---|---|---|---|---|---|
主题一:自我成长 | 直接的 | 3.68 | 4.42 | 4.84 | 4.31 |
故事Agent | 4.1 | 4.5 | 4.80 | 4.47 | |
主题 2:家庭与友谊 | 直接的 | 3.94 | 5.0 | 4.72 | 4.55 |
故事Agent | 4.36 | 4.8 | 4.92 | 4.69 | |
主题 3:环境 | 直接的 | 4.0 | 4.62 | 4.92 | 4.51 |
故事Agent | 4.44 | 4.68 | 4.86 | 4.66 | |
主题四:知识学习 | 直接的 | 4.46 | 4.14 | 4.86 | 4.49 |
故事Agent | 4.84 | 4.52 | 4.90 | 4.75 | |
全部 | 直接的 | 4.02 | 4.55 | 4.84 | 4.47 |
故事Agent | 4.44 | 4.63 | 4.87 | 4.65 |
从评估数据可以看出,MM-StoryAgent不仅提升了故事的吸引力和教育意义,还显著提高了温暖感与主题深度。
MM-StoryAgent是一个革命性的多模态故事生成系统,集成了先进的AI技术,为内容创作提供了全新的工具和视角。无论是在儿童故事创作还是教育资源开发领域,它都能大幅提升创作效率与内容质量,成为AI在内容生成领域的重要突破。通过不断优化与迭代,MM-StoryAgent将在未来的故事创作中发挥更加重要的作用。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。