配音级视频译制接入

最近更新时间:2025-10-31 18:12:32

我的收藏

配音级视频译制功能简介


配音级视频译制功能整合了 MPS 多种强大原子能力,包括字幕擦除、字幕提取、字幕翻译、字幕压制以及 AI 配音。该功能能够自动识别视频中的原始字幕,进行精准擦除和大模型翻译,并将翻译后的字幕无缝压制到视频中,同时提供自然流畅的 AI 配音,提升观赏体验。通过这一功能,用户可以轻松生成带有 AI 翻译语言配音的新视频,快速实现多语言视频的制作与发布,满足全球观众的需求。定价可参考 计费说明

发起视频译制任务

前置操作

在接入智能擦除前,为正常使用 MPS 产品,您需要完成以下前置操作:腾讯云账号注册与登录、开通 MPS 产品、授权服务角色。
具体指引请参考 快速入门。账号授权问题可参考 账号授权 文档。

方式1:控制台发起任务

1. 进入控制台 创建任务 页面,依次选择输入文件路径、配置编排处理流程、输出路径。
2. 在编排配置中,选择媒体 AI - 智能分析节点。
3. 在右侧弹出页面中,选择25号预设模板。开启“更多设置 - 扩展参数”,根据下文 扩展参数说明,传入所需参数。
说明:
25号预设模板默认为智能擦除-去水印基础版功能。如需发起视频译制任务,必须传入扩展参数,否则 MPS 仅对视频进行去水印处理。
MPS 控制台会自动转义,请直接传入 JSON 数据,不要传入转义后的字符串,否则会导致任务失败。


方式2:API 发起任务

调用 ProcessMedia 接口 ,选择 AiAnalysisTask 任务,将 Definition 设置为 25(预设模板 ID),ExtendedParameter 填扩展参数,通过该参数实现视频译制能力,取值见下文 扩展参数说明。ProcessMedia 的 JSON 示例如下:
{
"InputInfo":{ //输入视频路径,请替换为您的原始视频
"Type":"URL",
"UrlInputInfo":{
"Url":"https://test-1234567.cos.ap-nanjing.myqcloud.com/mps_test/myvideo.mp4"
}
},
"OutputStorage":{ //输出COS存储桶,请替换
"Type":"COS",
"CosOutputStorage":{
"Bucket":"test",
"Region":"ap-nanjing"
}
},
"OutputDir":"/mps_test/output/",//输出文件夹路径,请替换
"AiAnalysisTask":{
"Definition":25, //预设模板ID,填25即可
"ExtendedParameter":"{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}" //扩展参数,用于指定视频译制具体能力
},
"TaskNotifyConfig":{ //事件回调通知配置,可选
"NotifyType":"URL",
"NotifyUrl":"http://www.qq.com/callback"
}
}
建议您通过 API Explorer 实现快速验证。您可以将上述 JSON 复制到 API Explorer 的 JSON 模式中,切换至“表单”模式可以自动解析,调整输入输出路径等必要参数后,再单击发起调用即可。
在 API Explorer 表单和 JSON 两种输入模式下,ExtendedParameter 的位置示意如下图:

注意:
使用 API Explorer 的表单模式填写 ExtendedParameter 时,需要直接传入 JSON,不用转换成字符串。但使用 API Explorer 的 JSON 模式或直接使用 API 接口,则必须传入转义后的字符串。
API Explorer 表单模式,ExtendedParameter 传入 JSON 即可:

API Explorer JSON 模式,ExtendedParameter 则需要传入转义后的字符串,示例:
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}

ExtendedParameter 扩展参数说明

请根据视频译制使用场景,设置相应的扩展参数,以下为常见场景说明。

场景1:OCR 提取字幕并翻译+擦除原字幕+压制新字幕+AI 克隆配音(最常用)

将视频字幕及配音翻译为指定语言,生成带有翻译语言字幕及配音的新视频。其中,字幕及配音内容来源于 OCR 文本提取(提取视频画面上的源字幕)。对于画面上带有源语言字幕的视频,建议使用该场景处理。

计费说明

使用该场景能力,收取「去字幕」、「OCR 提取字幕并翻译+压制字幕」及 「AI 配音(克隆音色)」三个计费项的费用。
若不开启压制字幕,收取「去字幕」、「OCR 提取字幕并翻译」及 「AI 配音(克隆音色)」三个计费项的费用。
定价可参考 计费说明

效果示例

中文原视频:




英文译制视频:



ExtendedParameter 传参如下

{
"delogo": {
"cluster_id": "gpu_pre",
"CustomerAppId": "audio_clone_ocr"
}
}

//若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}

指定语言

默认为中转英(源语言为简体中文,目标翻译语言为英语),若需要其他语言,可通过在 ExtendedParameter 中补充传入translate_src_languagetranslate_dst_language参数。支持语种及对应 code 请参考下文 视频译制支持语种,示例:
{
"delogo": {
"cluster_id": "gpu_pre",
"CustomerAppId": "audio_clone_ocr",
"subtitle_param": {
"translate_src_language": "de", //德语
"translate_dst_language": "id" //印度尼西亚语
}
}
}

/*
若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\",\\"subtitle_param\\":{\\"translate_src_language\\":\\"de\\",\\"translate_dst_language\\":\\"id\\"}}}

translate_src_language: 用于指定视频源语言,不传则默认为中文
translate_dst_language: 用于指定翻译目标语言,不传则默认为英语
*/

不开启压制字幕

若您不需要将翻译语言字幕压制到视频画面上,可以补充以下传参 "use_draw": false
{
"delogo": {
"cluster_id": "gpu_pre",
"CustomerAppId": "audio_clone_ocr",
"subtitle_param": {
"use_draw": false
}
}
}
/*
use_draw: 不传或传true表示压制字幕,false表示不压制字幕

若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\",\\"subtitle_param\\":{\\"use_draw\\":false}}}
*/

场景2:ASR 提取字幕并翻译+压制新字幕+AI 克隆配音

与场景1类似,场景2也是将视频字幕及配音翻译为指定语言,生成带有翻译语言字幕及配音的新视频。不过字幕及配音内容来源于 ASR 语音识别(识别视频源语音内容,转写为字幕)。场景2不会自动进行去字幕处理。

计费说明

使用该场景能力,收取「 ASR 生成字幕并翻译+压制字幕」及 「AI 配音(克隆音色)」两个计费项的费用。定价可参考 计费说明
若不开启压制字幕,收取「 ASR 语音翻译」及 「AI 配音(克隆音色)」两个计费项的费用。定价可参考 计费说明

效果示例

俄语原视频:

中文译制视频:


ExtendedParameter 传参如下

{
"delogo": {
"cluster_id": "gpu_pre",
"CustomerAppId": "audio_clone_asr"
}
}

//若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}

指定语言

默认为中转英(源语言为简体中文,目标翻译语言为英语),若需要其他语言,可通过在 ExtendedParameter 中补充传入translate_src_languagetranslate_dst_language参数。支持语种及对应 code 请参考下文 视频译制支持语种,示例:
{
"delogo": {
"cluster_id": "gpu_pre",
"CustomerAppId": "audio_clone_asr",
"subtitle_param": {
"translate_src_language": "de", //德语
"translate_dst_language": "id" //印度尼西亚语
}
}
}

/*
若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_asr\\",\\"subtitle_param\\":{\\"translate_src_language\\":\\"de\\",\\"translate_dst_language\\":\\"id\\"}}}

translate_src_language: 用于指定视频源语言,不传则默认为中文
translate_dst_language: 用于指定翻译目标语言,不传则默认为英语
*/

不开启压制字幕

若您不需要将翻译语言字幕压制到视频画面上,可以在 ExtendedParameter 中补充以下传参 "subtitle_param": { "use_draw": false }
{
"delogo": {
"cluster_id": "gpu_pre",
"CustomerAppId": "audio_clone_asr",
"subtitle_param": {
"use_draw": false
}
}
}
/*
若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_asr\\",\\"subtitle_param\\":{\\"use_draw\\":false}}}
*/

场景3:AI 配音使用标准音色

视频译制 AI 配音功能支持两种音色选择:
标准音色:支持中、英、日三语,提供多种男声、女声、童声选择。收取「AI 配音(标准音色)」费用。
克隆音色:基于领先 AI 语音克隆技术,逼真还原声音特征。收取「AI 配音(克隆音色)」费用。
场景1和2默认都使用克隆音色。当前标准音色能力升级中,暂仅开放内测,如有需求您可以联系商务或 提交工单 获得支持。

附:视频译制支持语种

视频译制功能,若选用 AI 配音克隆音色,支持以下语种:
语种
Code
是否可用于源语言(translate_src_language)
是否可用于翻译目标语言(translate_dst_language)
中文 (Chinese)
zh
英语 (English)
en
日语 (Japanese)
ja
德语 (German)
de
法语 (French)
fr
韩语 (Korean)
ko
俄语 (Russian)
ru
乌克兰语 (Ukrainian)
uk
葡萄牙语 (Portuguese)
pt
意大利语 (Italian)
it
西班牙语 (Spanish)
es
印度尼西亚语 (Indonesian)
id
荷兰语 (Dutch)
nl
土耳其语 (Turkish)
tr
菲律宾语 (Filipino)
fil
马来语 (Malay)
ms
希腊语 (Greek)
el
芬兰语 (Finnish)
fi
克罗地亚语 (Croatian)
hr
斯洛伐克语 (Slovak)
sk
波兰语 (Polish)
pl
瑞典语 (Swedish)
sv
印地语 (Hindi)
hi
保加利亚语 (Bulgarian)
bg
罗马尼亚语 (Romanian)
ro
阿拉伯语 (Arabic)
ar
捷克语 (Czech)
cs
丹麦语 (Danish)
da
泰米尔语 (Tamil)
ta
匈牙利语(Hungarian)
hun
越南语(Vietnamese)
vi
若选用 AI 配音标准音色,支持多种男声、女声、童声选择。当前标准音色能力升级中,暂仅开放内测。如需了解具体音色及语种列表,您可以联系商务或 提交工单 获得支持。

查询任务结果

视频译制任务会输出处理后的视频文件,保存在任务配置的输出路径下。

控制台查询结果

1. 您可以在控制台 任务管理 页面查看任务状态,当子任务状态为“成功”时,单击回调 JSON

2. 可以在输出信息中找到输出文件路径。

如果使用 COS 作为输出路径,您可以在 MPS 控制台的编排管理 > COS Bucket > 输出 Bucket 页面中找到输出文件。文件名类似"delogo-xxx.mp4"的视频即为译制处理后的视频文件。


事件通知回调

在使用 ProcessMedia 发起媒体处理任务时,您可以通过 TaskNotifyConfig 参数配置事件回调。当任务处理完成后,会通过配置的回调信息回调任务结果,您可以通过 ParseNotification 解析事件通知结果。

调用接口查询任务结果

在使用 ProcessMedia 发起媒体处理任务后,会返回任务 ID(TaskId),例如:24000022-WorkflowTask-b20a8exxxxxxx1tt110253、24000022-ScheduleTask-774f101xxxxxxx1tt110253。调用 DescribeTaskDetail 接口,输入任务 ID 即可获取任务结果,您需要解析 WorkflowTask ->AiAnalysisResultSet 字段获取任务结果。

常见问题

是否支持字幕级视频译制,如何使用?

支持,您可以使用智能字幕功能,生成翻译语言字幕文件,再通过调用转码功能,将字幕压制到视频画面中。参考 智能字幕接入