视频制作接口-照片免训练

最近更新时间:2025-07-10 14:17:11

我的收藏

接口说明

无需训练,即可基于一个真人照片素材,通过输入文本或音频,生成人物说话口型与输入内容相匹配的新视频。
通过 音视频制作进度查询接口 最终返回成品视频。目前音视频资源只保留7天,请尽快下载。

调用协议

HTTPS + JSON
POST /v2/ivh/videomaker/broadcastservice/phototovideonotrain
Header Content-Type: application/json;charset=utf-8

请求参数

参数
类型
必须
说明
RefPhotoUrl
string
模板照片,格式支持 jpg、jpeg、png、bmp、webp。
1. 文件大小必须在10M内。
2. 图片单边分辨率要求在[192~4096]之间。
3. 图片宽高比在1:2到2:1范围内。
4. 需要有真人或类真人的卡通人脸,避免上传无人脸、人脸不完整、不清晰、偏转角度过大、嘴部被遮挡的图片。
DriverType
string
驱动类型,该字段必填。
1. Text:文本驱动,要求 InputSsml 字段必填。
2. OriginalVoice:原声音频驱动,要求 InputAudioUrl 字段必填。
InputAudioUrl
string
驱动数智人的音频 URL,当 DriverType 为 OriginalVoice 时,该字段必填。
音频格式要求:
1、时长在【2,60】秒。
2、支持格式:wav、mp3、wma、m4a、aac、ogg。
3、文件大小:不超过20M。
InputSsml
string
播报文本内容,支持 SSML 标签,支持的标签类型参照 数智人 SSML 标记语言规范,标签写法参照示例,内容不能换行,符号需转义。上限300字(文本驱动底层会转换为音频,如果时长超过60秒时任务会制作失败),不少于4个字(字数按 unicode 字符数计算)。DriverType 为空、或 Text 时,该字段必填。
SpeechParam
object
定义音频的详细参数。DriverType 为 Text 时,该字段必填。
SpeechParam.Speed
float
语速(1.0为正常语速,范围[0.5-1.5],值为0.5时播报语速最慢,值为1.5时播报语速最快, DriverType 为音频驱动类型时,语速控制不生效),DriverType 为 Text 时,该字段必填。
SpeechParam.TimbreKey
string
音色 Key,DriverType 为 Text 时,该字段必填。
SpeechParam.Volume
int
音量大小,范围[0,10],对应音量大小。默认为0,代表正常音量,值越大音量越高。
说明:
TimbreKey 在 male_1-20、female_1-23(即男声1-20、女声1-23)间的音色不支持音量调节。
SpeechParam.EmotionCategory
string
控制合成音频的情感,仅支持多情感音色使用,可选值参考个人资产管理 API 分页查询音色列表接口。
SpeechParam.EmotionIntensity
int
控制合成音频情感程度,取值范围为 [50,200],只有 EmotionCategory 不为空时生效。
SpeechParam.TimbreLanguage
string
音色语种,可选语种参考个人资产管理 API 分页查询音色列表 接口,多语种音色在合成时必须选择对应语种。
ConcurrencyType
string
视频制作任务使用的资源类型。
1. Exclusive:使用并发调用,不扣除小时包,需要购买并发,如果没有购买,任务提交失败。
2. Shared:调用会扣除小时包,需要购买小时包,如果没有购买,任务提交失败。
3. 不填:如果购买了并发或者并发和小时包都购买则为“Exclusive”,如果没有购买并发但购买了小时包则为“Shared”,如果都没有购买,任务提交失败。
CallbackUrl
string
当用户增加回调 URL 时,将把视频制作结果以固定格式发送 POST 请求到该 URL 地址,固定格式见 附录二: 回调请求体格式,需注意:
1. 限制 CallbackUrl 长度小于1000。
2. 只发送一次请求,无论是哪种问题导致的请求失败,都不会再进行发送。
VideoParam
object
定义输出视频的相关参数,不填时取各字段默认值。
VideoParam.EmotionLevel
int
输出视频的人物情绪强度:可选强度:1,2,3;默认值是2。越大音频控制强度越强,但可能导致不自然。

返回参数

参数
类型
必须
说明
TaskId
string
视频制作的任务 ID,携带 TaskId 访问 音视频制作进度查询接口,可获得制作进度和制作结果

请求示例

文本驱动
{
"Header": {},
"Payload": {
"RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg",
"DriverType": "Text",
"InputSsml": "你好,我是虚拟<phoneme alphabet=\\"py\\" ph=\\"fu4\\">主</phoneme>播",
"SpeechParam": {
"TimbreKey": "female_1",
"Volume": 1,
"Speed": 1.0
}
}
}

音频驱动
{
"Header": {},
"Payload": {
"RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg",
"DriverType": "OriginalVoice",
"InputAudioUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/audio.mp3"
}
}

返回示例

{
"Header": {
"Code": 0,
"DialogID": "",
"Message": "",
"RequestID": "fde854eaa981c7f2f7285d1c7eca335b",
"SessionID": "gzb7dec22117297528294581119"
},
"Payload": {
"TaskId": "81883d47c6154edf8e276531f09227b6"
}
}