前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >AI多模态、多智能体故事生成系统:MM-StoryAgent 下载、安装、部署、配置教程

AI多模态、多智能体故事生成系统:MM-StoryAgent 下载、安装、部署、配置教程

原创
作者头像
猫头虎
修改2025-03-12 09:00:51
修改2025-03-12 09:00:51
2300
代码可运行
举报
运行总次数:0
代码可运行

AI多模态、多智能体故事生成系统:MM-StoryAgent

MM-StoryAgent是由上海交通大学与阿里巴巴联合开源的一款创新AI系统,致力于自动生成富有创意和沉浸感的故事视频。它不仅支持文本生成,还能同步生成图像、音效、背景音乐等多种模态内容,为儿童故事创作提供了高效且灵活的解决方案。该系统通过模拟专家与新手作家的对话,优化创作过程,确保故事的质量和完整性。

通过多阶段写作流程,MM-StoryAgent能够首先构建故事大纲,再逐步扩展为完整的章节,确保内容丰富、逻辑清晰。此外,系统内置的多个智能体将文本内容转化为不同模态的提示,并采用“修订-审核”机制不断迭代优化,确保各模态之间的内容一致性,特别是在图像生成时角色形象的一致性。

该系统的开源代码可通过GitHub获取:MM-StoryAgent GitHub:https://github.com/MaoTouHU/QW_StoryAgent

MM-StoryAgent概述

MM-StoryAgent是一个多智能体框架,通过结合大规模语言模型(LLM)和多种模态专家工具,打造沉浸式故事生成体验。系统设计了灵活且可定制的工作流程,允许用户根据需求定义和优化生成过程,以提高创作质量。

其核心特点包括:

  • 多模态生成:系统能够生成包括文本、图像、语音和音乐在内的多种内容,最终将这些资产组合成一个高质量的故事视频。
  • 多阶段生成流程:故事创作流程分为多个阶段,先生成大纲,再逐步扩展和优化章节内容。
  • 智能体协同:通过不同的智能体协作,每个模态的生成任务都得到了精确控制,并经过优化,确保最终输出的多模态内容相互协调。
    在这里插入图片描述
    在这里插入图片描述

MM-StoryAgent适用于各种创意内容生成,特别是在儿童教育和娱乐领域,能够提供高质量、富有表现力的故事视频。


安装与使用

要使用MM-StoryAgent,首先需要安装依赖项并将其作为包安装:

代码语言:bash
复制
pip install -r requirements.txt
pip install -e .

随后,您可以通过配置文件启动系统:

代码语言:bash
复制
python run.py -c configs/mm_story_agent.yaml

每个智能体的配置和调用方式也十分灵活,可以根据需要调整各类参数,以定制不同的创作需求。

在线体验:https://huggingface.co/spaces/wsntxxn/MM-StoryAgent


快速入门

本地环境配置项:

MM-StoryAgent可以通过配置文件调用:

代码语言:c
代码运行次数:0
复制
python run.py -c configs/mm_story_agent.yaml

每个Agent的调用格式如下:

代码语言:c
代码运行次数:0
复制
story_writer: # agent name
    tool: qa_outline_story_writer # name registered in the definition
    cfg: # parameters for initializing the agent instance
        max_conv_turns: 3
        ...
    params: # parameters for calling the agent instance
        story_topic: "Time Management: A child learning how to manage their time effectively."
        ...

新Agent的定制可以参考music_agent.py。Agent类需要实现__init__call才能正常工作,如下所示:

代码语言:c
代码运行次数:0
复制
from typing import Dict
from mm_story_agent.base import register_tool

@register_tool("my_speech_agent")
class MySpeechAgent:
    
    def __init__(self, cfg: Dict):
        # For example, the agent need `attr1` and `attr2` for initilization
        self.attr1 = cfg.attr1
        self.attr2 = cfg.attr2
        ...
    
    def call(self, params: Dict):
        # For example, calling the agent needs `voice` and `speed` parameters
        voice = params["voice"]
        speed = params["speed"]
        ...
    

然后只需修改配置即可调用Agent,例如:

代码语言:c
代码运行次数:0
复制
speech_generation:
    tool: my_speech_agent
    cfg:
        attr1: val1
        attr2: val2
    params:
        voice: en_female
        speed: 1.0

故事内容评估

StoryAgent团队使用 GPT-4 根据多个方面自动评估故事质量。StoryAgent团队的故事写作Agent与直接提示 LLM 撰写故事进行了比较。评估分数显示了StoryAgent团队的多Agent、多阶段故事写作流程的优势。

评分标准

吸引力

温暖

教育

平均的

主题一:自我成长

直接的

3.68

4.42

4.84

4.31

故事Agent

4.1

4.5

4.80

4.47

主题 2:家庭与友谊

直接的

3.94

5.0

4.72

4.55

故事Agent

4.36

4.8

4.92

4.69

主题 3:环境

直接的

4.0

4.62

4.92

4.51

故事Agent

4.44

4.68

4.86

4.66

主题四:知识学习

直接的

4.46

4.14

4.86

4.49

故事Agent

4.84

4.52

4.90

4.75

全部

直接的

4.02

4.55

4.84

4.47

故事Agent

4.44

4.63

4.87

4.65

从评估数据可以看出,MM-StoryAgent不仅提升了故事的吸引力和教育意义,还显著提高了温暖感与主题深度。


结语

MM-StoryAgent是一个革命性的多模态故事生成系统,集成了先进的AI技术,为内容创作提供了全新的工具和视角。无论是在儿童故事创作还是教育资源开发领域,它都能大幅提升创作效率与内容质量,成为AI在内容生成领域的重要突破。通过不断优化与迭代,MM-StoryAgent将在未来的故事创作中发挥更加重要的作用。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MM-StoryAgent概述
  • 安装与使用
  • 快速入门
    • 故事内容评估
    • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档