腾讯云智能数智人播报数智人视频生成与管理

播报数智人适用于培训、媒体等多种内容生产场景，面向传媒、资管、教育等行业提供服务，支持定制专属的播报内容。通过使用数智人播报，可以提高人效，降低成本，迁移和复制成本低，受人为的情绪和自然条件影响小，可实现无误差播报。
﻿
平台播报数智人模块能力概述：
支持2D真人视频制作，可对文本内容、主播设置、视频设置等进行编辑，可对完成制作的视频、音频进行下载。2D真人视频制作区分2D精品形象及2D小样本形象两种形象类型。
支持3D数智人视频制作，可对文本内容、主播设置、视频设置等进行编辑，可对完成制作的视频、音频进行下载。
﻿
播报音视频模块访问路径：首页 > 场景应用 > 音视频播报，即可在此管理您已制作的音频、视频内容，或是新建音视频播报项目。
一、新建音视频
单击第一个空白加号卡片，选择需要创建音视频播报形象类型，单击新建音视频，即可开始新内容的编辑制作。
﻿
﻿
﻿
﻿
二、管理音视频
对已创建的音视频内容，鼠标悬停在相应封面上，即可对该内容进行管理。
注意：
主账号创建的内容，子账号不可见，且子账号不可操作编辑和删除。
子账号创建的内容，主账号可以查看，但不可操作编辑和删除。
视频内容包括以下操作：
二次编辑：支持对已经编辑好的内容进行修改，二次编辑不改变原视频，会重新生成一份内容。
下载视频：支持下载 mp4 格式、webm 格式（仅抠绿形象支持，可输出带透明通道格式）。
下载字幕：支持下载 srt 文件。
删除视频：从平台移除，不再存储。
修改标题：重命名视频标题。
复制标题：复制视频标题。
﻿
﻿
﻿
﻿
音频内容包括以下操作：
二次编辑：二次编辑不改变原视频，会重新生成一份内容。
下载音频：默认下载 mp3 格式。
删除音频：从平台移除，不再存储。
修改标题：重命名音频标题。
复制标题：复制音频标题。
﻿
﻿
﻿
三、音视频制作
驱动能力分为文本驱动、原声驱动、变声驱动三种。播报音视频模块支持通过文本驱动、原声驱动两种驱动方式，来制作数智人音频和视频。
驱动方式
能力描述
文本驱动
通过输入文本即可生成口型自动匹配的数智人音视频内容。在文本中插入动作/表情标签，数智人可在对应的位置做出相应的表情和动作。
原声驱动
通过输入音频即可生成口型自动匹配的数智人音视频内容，数智人声音与输入的音频保持一致。
变声驱动
通过输入音频即可生成口型自动匹配的数智人音视频内容，数智人声音与形象设置环节所选声音保持一致。
注意：
每个形象支持的驱动方式有差异，详见标准形象相册。
3.1. 文本驱动
选择文本驱动，需要您在选择好数智人的形象、造型、声音、输出设置后，自行输入文本并在文本中按照您的需要插入动作/表情标签、检查多音字读法等，即可根据您的要求合成相应的数智人播报视频，视频将包含根据文本合成的数智人语音。
﻿
制作完成后，单击生成视频，编辑视频内容名称、选择视频格式，即可开始生成。生成过程一般需要1-10分钟（具体时长视您制作的视频长度及您账号所购的播报并发数而定），待内容封面不再提示等待、正常展示内容后，即可单击下载。
﻿
﻿
﻿
﻿
﻿
﻿
﻿
3.2. 音频驱动
选择语音驱动，生成的视频将直接使用上传音频文件来合成视频，无需选择数智人声音。选择语音驱动方式，即可上传用于驱动数智人的音频文件，支持 wav、mp3、wma、m4a、aac等5种格式。
其余数智人的造型配置、输出设置，与文本驱动一致。
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿

驱动方式	能力描述
文本驱动	通过输入文本即可生成口型自动匹配的数智人音视频内容。在文本中插入动作/表情标签，数智人可在对应的位置做出相应的表情和动作。
原声驱动	通过输入音频即可生成口型自动匹配的数智人音视频内容，数智人声音与输入的音频保持一致。
变声驱动	通过输入音频即可生成口型自动匹配的数智人音视频内容，数智人声音与形象设置环节所选声音保持一致。

播报数智人视频生成与管理

本页目录：

一、新建音视频

﻿﻿﻿

二、管理音视频

三、音视频制作

3.1. 文本驱动

3.2. 音频驱动