配音级视频译制功能简介

配音级视频译制功能整合了 MPS 多种强大原子能力,包括字幕擦除、字幕提取、字幕翻译、字幕压制以及 AI 配音。该功能能够自动识别视频中的原始字幕,进行精准擦除和大模型翻译,并将翻译后的字幕无缝压制到视频中,同时提供自然流畅的 AI 配音,提升观赏体验。通过这一功能,用户可以轻松生成带有 AI 翻译语言配音的新视频,快速实现多语言视频的制作与发布,满足全球观众的需求。定价可参考 计费说明。
发起视频译制任务
前置操作
在接入智能擦除前,为正常使用 MPS 产品,您需要完成以下前置操作:腾讯云账号注册与登录、开通 MPS 产品、授权服务角色。
方式1:控制台发起任务
1. 进入控制台 创建任务 页面,依次选择输入文件路径、配置编排处理流程、输出路径。
2. 在编排配置中,选择媒体 AI - 智能分析节点。
3. 在右侧弹出页面中,选择25号预设模板。开启“更多设置 - 扩展参数”,根据下文 扩展参数说明,传入所需参数。
说明:
25号预设模板默认为智能擦除-去水印基础版功能。如需发起视频译制任务,必须传入扩展参数,否则 MPS 仅对视频进行去水印处理。
MPS 控制台会自动转义,请直接传入 JSON 数据,不要传入转义后的字符串,否则会导致任务失败。

方式2:API 发起任务
调用 ProcessMedia 接口 ,选择 AiAnalysisTask 任务,将 Definition 设置为 25(预设模板 ID),ExtendedParameter 填扩展参数,通过该参数实现视频译制能力,取值见下文 扩展参数说明。ProcessMedia 的 JSON 示例如下:
{"InputInfo":{ //输入视频路径,请替换为您的原始视频"Type":"URL","UrlInputInfo":{"Url":"https://test-1234567.cos.ap-nanjing.myqcloud.com/mps_test/myvideo.mp4"}},"OutputStorage":{ //输出COS存储桶,请替换"Type":"COS","CosOutputStorage":{"Bucket":"test","Region":"ap-nanjing"}},"OutputDir":"/mps_test/output/",//输出文件夹路径,请替换"AiAnalysisTask":{"Definition":25, //预设模板ID,填25即可"ExtendedParameter":"{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}" //扩展参数,用于指定视频译制具体能力},"TaskNotifyConfig":{ //事件回调通知配置,可选"NotifyType":"URL","NotifyUrl":"http://www.qq.com/callback"}}
建议您通过 API Explorer 实现快速验证。您可以将上述 JSON 复制到 API Explorer 的 JSON 模式中,切换至“表单”模式可以自动解析,调整输入输出路径等必要参数后,再单击发起调用即可。
在 API Explorer 表单和 JSON 两种输入模式下,ExtendedParameter 的位置示意如下图:

注意:
使用 API Explorer 的表单模式填写 ExtendedParameter 时,需要直接传入 JSON,不用转换成字符串。但使用 API Explorer 的 JSON 模式或直接使用 API 接口,则必须传入转义后的字符串。
API Explorer 表单模式,ExtendedParameter 传入 JSON 即可:

API Explorer JSON 模式,ExtendedParameter 则需要传入转义后的字符串,示例:
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}
ExtendedParameter 扩展参数说明
请根据视频译制使用场景,设置相应的扩展参数,以下为常见场景说明。
场景1:OCR 提取字幕并翻译+擦除原字幕+压制新字幕+AI 克隆配音(最常用)
将视频字幕及配音翻译为指定语言,生成带有翻译语言字幕及配音的新视频。其中,字幕及配音内容来源于 OCR 文本提取(提取视频画面上的源字幕)。对于画面上带有源语言字幕的视频,建议使用该场景处理。
计费说明
使用该场景能力,收取「去字幕」、「OCR 提取字幕并翻译+压制字幕」及 「AI 配音(克隆音色)」三个计费项的费用。
若不开启压制字幕,收取「去字幕」、「OCR 提取字幕并翻译」及 「AI 配音(克隆音色)」三个计费项的费用。
效果示例
中文原视频:


英文译制视频:
ExtendedParameter 传参如下
{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_ocr"}}//若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}
指定语言
默认为中转英(源语言为简体中文,目标翻译语言为英语),若需要其他语言,可通过在 ExtendedParameter 中补充传入
translate_src_language 和 translate_dst_language参数。支持语种及对应 code 请参考下文 视频译制支持语种,示例:{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_ocr","subtitle_param": {"translate_src_language": "de", //德语"translate_dst_language": "id" //印度尼西亚语}}}/*若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\",\\"subtitle_param\\":{\\"translate_src_language\\":\\"de\\",\\"translate_dst_language\\":\\"id\\"}}}translate_src_language: 用于指定视频源语言,不传则默认为中文translate_dst_language: 用于指定翻译目标语言,不传则默认为英语*/
不开启压制字幕
若您不需要将翻译语言字幕压制到视频画面上,可以补充以下传参
"use_draw": false 。{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_ocr","subtitle_param": {"use_draw": false}}}/*use_draw: 不传或传true表示压制字幕,false表示不压制字幕若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\",\\"subtitle_param\\":{\\"use_draw\\":false}}}*/
场景2:ASR 提取字幕并翻译+压制新字幕+AI 克隆配音
与场景1类似,场景2也是将视频字幕及配音翻译为指定语言,生成带有翻译语言字幕及配音的新视频。不过字幕及配音内容来源于 ASR 语音识别(识别视频源语音内容,转写为字幕)。场景2不会自动进行去字幕处理。
计费说明
效果示例
俄语原视频:
中文译制视频:
ExtendedParameter 传参如下
{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_asr"}}//若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}
指定语言
默认为中转英(源语言为简体中文,目标翻译语言为英语),若需要其他语言,可通过在 ExtendedParameter 中补充传入
translate_src_language 和 translate_dst_language参数。支持语种及对应 code 请参考下文 视频译制支持语种,示例:{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_asr","subtitle_param": {"translate_src_language": "de", //德语"translate_dst_language": "id" //印度尼西亚语}}}/*若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_asr\\",\\"subtitle_param\\":{\\"translate_src_language\\":\\"de\\",\\"translate_dst_language\\":\\"id\\"}}}translate_src_language: 用于指定视频源语言,不传则默认为中文translate_dst_language: 用于指定翻译目标语言,不传则默认为英语*/
不开启压制字幕
若您不需要将翻译语言字幕压制到视频画面上,可以在 ExtendedParameter 中补充以下传参
"subtitle_param": { "use_draw": false } 。{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_asr","subtitle_param": {"use_draw": false}}}/*若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_asr\\",\\"subtitle_param\\":{\\"use_draw\\":false}}}*/
场景3:AI 配音使用标准音色
视频译制 AI 配音功能支持两种音色选择:
标准音色:支持中、英、日三语,提供多种男声、女声、童声选择。收取「AI 配音(标准音色)」费用。
克隆音色:基于领先 AI 语音克隆技术,逼真还原声音特征。收取「AI 配音(克隆音色)」费用。
附:视频译制支持语种
视频译制功能,若选用 AI 配音克隆音色,支持以下语种:
语种 | Code | 是否可用于源语言(translate_src_language) | 是否可用于翻译目标语言(translate_dst_language) |
中文 (Chinese) | zh | ✓ | ✓ |
英语 (English) | en | ✓ | ✓ |
日语 (Japanese) | ja | ✓ | ✓ |
德语 (German) | de | ✓ | ✓ |
法语 (French) | fr | ✓ | ✓ |
韩语 (Korean) | ko | ✓ | ✓ |
俄语 (Russian) | ru | ✓ | ✓ |
乌克兰语 (Ukrainian) | uk | ✓ | ✓ |
葡萄牙语 (Portuguese) | pt | ✓ | ✓ |
意大利语 (Italian) | it | ✓ | ✓ |
西班牙语 (Spanish) | es | ✓ | ✓ |
印度尼西亚语 (Indonesian) | id | ✓ | ✓ |
荷兰语 (Dutch) | nl | ✓ | ✓ |
土耳其语 (Turkish) | tr | ✓ | ✓ |
菲律宾语 (Filipino) | fil | ✓ | ✓ |
马来语 (Malay) | ms | ✓ | ✓ |
希腊语 (Greek) | el | ✓ | ✓ |
芬兰语 (Finnish) | fi | ✓ | ✓ |
克罗地亚语 (Croatian) | hr | ✓ | ✓ |
斯洛伐克语 (Slovak) | sk | ✓ | ✓ |
波兰语 (Polish) | pl | ✓ | ✓ |
瑞典语 (Swedish) | sv | ✓ | ✓ |
印地语 (Hindi) | hi | ✓ | ✓ |
保加利亚语 (Bulgarian) | bg | ✓ | ✓ |
罗马尼亚语 (Romanian) | ro | ✓ | ✓ |
阿拉伯语 (Arabic) | ar | ✓ | ✓ |
捷克语 (Czech) | cs | ✓ | ✓ |
丹麦语 (Danish) | da | ✓ | ✓ |
泰米尔语 (Tamil) | ta | ✓ | ✓ |
匈牙利语(Hungarian) | hun | ✓ | ✓ |
越南语(Vietnamese) | vi | ✓ | ✓ |
查询任务结果
视频译制任务会输出处理后的视频文件,保存在任务配置的输出路径下。
控制台查询结果
1. 您可以在控制台 任务管理 页面查看任务状态,当子任务状态为“成功”时,单击回调 JSON。

2. 可以在输出信息中找到输出文件路径。

如果使用 COS 作为输出路径,您可以在 MPS 控制台的编排管理 > COS Bucket > 输出 Bucket 页面中找到输出文件。文件名类似"delogo-xxx.mp4"的视频即为译制处理后的视频文件。

事件通知回调
在使用 ProcessMedia 发起媒体处理任务时,您可以通过 TaskNotifyConfig 参数配置事件回调。当任务处理完成后,会通过配置的回调信息回调任务结果,您可以通过 ParseNotification 解析事件通知结果。
调用接口查询任务结果
在使用 ProcessMedia 发起媒体处理任务后,会返回任务 ID(TaskId),例如:24000022-WorkflowTask-b20a8exxxxxxx1tt110253、24000022-ScheduleTask-774f101xxxxxxx1tt110253。调用 DescribeTaskDetail 接口,输入任务 ID 即可获取任务结果,您需要解析 WorkflowTask ->AiAnalysisResultSet 字段获取任务结果。