播报数智人视频生成与管理

最近更新时间:2024-05-09 15:53:41

我的收藏
播报数智人适用于培训、媒体等多种内容生产场景,面向传媒、资管、教育等行业提供服务,支持定制专属的播报内容。通过使用数智人播报,可以提高人效,降低成本,迁移和复制成本低,受人为的情绪和自然条件影响小,可实现无误差播报。

平台播报数智人模块能力概述:
支持2D真人视频制作,可对文本内容、主播设置、视频设置等进行编辑,可对完成制作的视频、音频进行下载。2D真人视频制作区分2D精品形象及2D小样本形象两种形象类型。
支持3D数智人视频制作,可对文本内容、主播设置、视频设置等进行编辑,可对完成制作的视频、音频进行下载。

播报音视频模块访问路径:首页 > 场景应用 > 音视频播报,即可在此管理您已制作的音频、视频内容,或是新建音视频播报项目。

一、新建音视频

单击第一个空白加号卡片,选择需要创建音视频播报形象类型,单击新建音视频,即可开始新内容的编辑制作。






二、管理音视频

对已创建的音视频内容,鼠标悬停在相应封面上,即可对该内容进行管理。
注意:
主账号创建的内容,子账号不可见,且子账号不可操作编辑和删除。
子账号创建的内容,主账号可以查看,但不可操作编辑和删除。
视频内容包括以下操作:
二次编辑:支持对已经编辑好的内容进行修改,二次编辑不改变原视频,会重新生成一份内容。
下载视频:支持下载 mp4 格式、webm 格式(仅抠绿形象支持,可输出带透明通道格式)。
下载字幕:支持下载 srt 文件。
删除视频:从平台移除,不再存储。
修改标题:重命名视频标题。
复制标题:复制视频标题。




音频内容包括以下操作:
二次编辑:二次编辑不改变原视频,会重新生成一份内容。
下载音频:默认下载 mp3 格式。
删除音频:从平台移除,不再存储。
修改标题:重命名音频标题。
复制标题:复制音频标题。




三、音视频制作

驱动能力分为文本驱动、原声驱动、变声驱动三种。播报音视频模块支持通过文本驱动、原声驱动两种驱动方式,来制作数智人音频和视频。
驱动方式
能力描述
文本驱动
通过输入文本即可生成口型自动匹配的数智人音视频内容。在文本中插入动作/表情标签,数智人可在对应的位置做出相应的表情和动作。
原声驱动
通过输入音频即可生成口型自动匹配的数智人音视频内容,数智人声音与输入的音频保持一致。
变声驱动
通过输入音频即可生成口型自动匹配的数智人音视频内容,数智人声音与形象设置环节所选声音保持一致。
注意:
每个形象支持的驱动方式有差异,详见标准形象相册

3.1. 文本驱动

选择文本驱动,需要您在选择好数智人的形象、造型、声音、输出设置后,自行输入文本并在文本中按照您的需要插入动作/表情标签、检查多音字读法等,即可根据您的要求合成相应的数智人播报视频,视频将包含根据文本合成的数智人语音。

制作完成后,单击生成视频,编辑视频内容名称、选择视频格式,即可开始生成。生成过程一般需要1-10分钟(具体时长视您制作的视频长度及您账号所购的播报并发数而定),待内容封面不再提示等待、正常展示内容后,即可单击下载。








3.2. 音频驱动

选择语音驱动,生成的视频将直接使用上传音频文件来合成视频,无需选择数智人声音。选择语音驱动方式,即可上传用于驱动数智人的音频文件,支持 wav、mp3、wma、m4a、aac等5种格式。
其余数智人的造型配置、输出设置,与文本驱动一致。