视频制作接口-照片免训练

最近更新时间:2025-12-16 17:14:52

我的收藏

接口说明

无需训练,即可基于一张形象照片(真人/卡通人物/卡通动物皆可),通过输入文本或音频,生成人物说话口型与输入内容相匹配的新视频。
通过 音视频制作进度查询接口 最终返回成品视频。目前音视频资源只保留7天,请尽快下载。

调用协议

HTTPS + JSON
POST /v2/ivh/videomaker/broadcastservice/phototovideonotrain
Header Content-Type: application/json;charset=utf-8

请求参数

参数
类型
必须
说明
RefPhotoUrl
string
请传入包含人像/卡通/动物面部的图片URL地址,并注意:
格式:支持 JPG、PNG、BMP、WEBP
大小:不超过 6MB
尺寸建议:单边在 192px ~ 4096px 之间,宽高比建议在 1:2 ~ 2:1
画面建议:请使用面部清晰、无严重遮挡的图片,避免使用无面部主体的图片(如风景、物体或文字截图)
DriverType
string
驱动类型,该字段必填。
Text:文本驱动,要求 InputSsml 字段必填。
OriginalVoice:原声音频驱动,要求 InputAudioUrl 字段必填。
InputAudioUrl
string
驱动数智人的音频 URL,当 DriverType 为 OriginalVoice 时,该字段必填。格式要求如下:
时长范围:2秒-60秒
支持格式:wav、mp3、wma、m4a、aac、ogg
文件大小:≤10M
InputSsml
string
播报文本内容,支持 SSML 标签,支持的标签类型参照 数智人 SSML 标记语言规范,标签写法参照示例,内容不能换行,符号需转义。上限300字(文本驱动底层会转换为音频,如果时长超过60秒时任务会制作失败),不少于4个字(字数按 Unicode 字符数计算)。DriverType 为空、或 Text 时,该字段必填。
SpeechParam
object
定义音频的详细参数。DriverType 为 Text 时,该字段必填。
SpeechParam.Speed
float
语速(1.0为正常语速,范围[0.5-1.5],值为0.5时播报语速最慢,值为1.5时播报语速最快, DriverType 为音频驱动类型时,语速控制不生效),DriverType 为 Text 时,该字段必填。
SpeechParam.TimbreKey
string
音色 Key,DriverType 为 Text 时,该字段必填。
SpeechParam.Volume
int
音量大小,范围[0,10],对应音量大小。默认为0,代表正常音量,值越大音量越高。
说明:
TimbreKey 在 male_1-20、female_1-23(即男声1-20、女声1-23)间的音色不支持音量调节。
SpeechParam.EmotionCategory
string
控制合成音频的情感,仅支持多情感音色使用,可选值参考个人资产管理 API 分页查询音色列表接口。
SpeechParam.EmotionIntensity
int
控制合成音频情感程度,取值范围为 [50,200],只有 EmotionCategory 不为空时生效。
SpeechParam.TimbreLanguage
string
音色语种,可选语种参考个人资产管理 API 分页查询音色列表 接口,多语种音色在合成时必须选择对应语种。
CallbackUrl
string
当用户增加回调 URL 时,将把视频制作结果以固定格式发送 POST 请求到该 URL 地址,固定格式见 附录二: 回调请求体格式,需注意:
1. 限制 CallbackUrl 长度小于1000。
2. 只发送一次请求,无论是哪种问题导致的请求失败,都不会再进行发送。
VideoStorageS3Url
string
可传入含鉴权 S3 协议存储 URL,视频成品会上传至该 URL。
VideoParam
object
定义输出视频的相关参数,不填时取各字段默认值。
VideoParam.Resolution
int
输出视频的分辨率,可选。
0:720P(默认值):高效省时之选,每秒视频渲染预计需要20秒。
1:1080P:画面质感更优,渲染时间约为720P的2倍以上。
VideoParam.Prompt
string
人物表现提示词,用于定义数字人的行为与动作。最大长度不超过 5000 字符(按 Unicode 字符数计算)。
注意:当此参数留空时,系统将自动使用默认提示词:“画面中的人物正在对着镜头讲话,偶尔做些手势匹配说话的内容。镜头保持固定。”

返回参数

参数
类型
必须
说明
TaskId
string
视频制作的任务 ID,携带 TaskId 访问 音视频制作进度查询接口,可获得制作进度和制作结果

请求示例

文本驱动
{
"Header": {},
"Payload": {
"RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg",
"DriverType": "Text",
"InputSsml": "你好,我是虚拟<phoneme alphabet=\\"py\\" ph=\\"fu4\\">主</phoneme>播",
"SpeechParam": {
"TimbreKey": "female_1",
"Volume": 1,
"Speed": 1.0
}
}
}

音频驱动
{
"Header": {},
"Payload": {
"RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg",
"DriverType": "OriginalVoice",
"InputAudioUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/audio.mp3"
}
}

返回示例

成功
{
"Header": {
"Code": 0,
"DialogID": "",
"Message": "",
"RequestID": "fde854eaa981c7f2f7285d1c7eca335b",
"SessionID": "gzb7dec22117297528294581119"
},
"Payload": {
"TaskId": "81883d47c6154edf8e276531f09227b6"
}
}
失败
{
"Header": {
"RequestID": "d99cf740be48d7b0fb1eee4447b71781",
"SessionID": "gz6240ef0317651792698007383",
"DialogID": "",
"Code": 100001,
"Message": "InvalidParameter:请求参数错误: Speed value invalid,ranges:0.5-1.5"
}
}