接口说明
无需训练,即可基于一个真人照片素材,通过输入文本或音频,生成人物说话口型与输入内容相匹配的新视频。
调用协议
HTTPS + JSON
POST /v2/ivh/videomaker/broadcastservice/phototovideonotrain
Header Content-Type: application/json;charset=utf-8
请求参数
参数 | 类型 | 必须 | 说明 |
RefPhotoUrl | string | 是 | 模板照片,格式支持 jpg、jpeg、png、bmp、webp。 1. 文件大小必须在10M内。 2. 图片单边分辨率要求在[192~4096]之间。 3. 图片宽高比在1:2到2:1范围内。 4. 需要有真人或类真人的卡通人脸,避免上传无人脸、人脸不完整、不清晰、偏转角度过大、嘴部被遮挡的图片。 |
DriverType | string | 是 | 驱动类型,该字段必填。 1. Text:文本驱动,要求 InputSsml 字段必填。 2. OriginalVoice:原声音频驱动,要求 InputAudioUrl 字段必填。 |
InputAudioUrl | string | 否 | 驱动数智人的音频 URL,当 DriverType 为 OriginalVoice 时,该字段必填。 音频格式要求: 1、时长在【2,60】秒。 2、支持格式:wav、mp3、wma、m4a、aac、ogg。 3、文件大小:不超过20M。 |
InputSsml | string | 否 | 播报文本内容,支持 SSML 标签,支持的标签类型参照 数智人 SSML 标记语言规范,标签写法参照示例,内容不能换行,符号需转义。上限300字(文本驱动底层会转换为音频,如果时长超过60秒时任务会制作失败),不少于4个字(字数按 unicode 字符数计算)。DriverType 为空、或 Text 时,该字段必填。 |
SpeechParam | object | 否 | 定义音频的详细参数。DriverType 为 Text 时,该字段必填。 |
SpeechParam.Speed | float | 否 | 语速(1.0为正常语速,范围[0.5-1.5],值为0.5时播报语速最慢,值为1.5时播报语速最快, DriverType 为音频驱动类型时,语速控制不生效),DriverType 为 Text 时,该字段必填。 |
SpeechParam.TimbreKey | string | 否 | 音色 Key,DriverType 为 Text 时,该字段必填。 |
SpeechParam.Volume | int | 否 | 音量大小,范围[0,10],对应音量大小。默认为0,代表正常音量,值越大音量越高。 说明: TimbreKey 在 male_1-20、female_1-23(即男声1-20、女声1-23)间的音色不支持音量调节。 |
SpeechParam.EmotionCategory | string | 否 | |
SpeechParam.EmotionIntensity | int | 否 | 控制合成音频情感程度,取值范围为 [50,200],只有 EmotionCategory 不为空时生效。 |
SpeechParam.TimbreLanguage | string | 否 | |
ConcurrencyType | string | 否 | 视频制作任务使用的资源类型。 1. Exclusive:使用并发调用,不扣除小时包,需要购买并发,如果没有购买,任务提交失败。 2. Shared:调用会扣除小时包,需要购买小时包,如果没有购买,任务提交失败。 3. 不填:如果购买了并发或者并发和小时包都购买则为“Exclusive”,如果没有购买并发但购买了小时包则为“Shared”,如果都没有购买,任务提交失败。 |
CallbackUrl | string | 否 | 1. 限制 CallbackUrl 长度小于1000。 2. 只发送一次请求,无论是哪种问题导致的请求失败,都不会再进行发送。 |
VideoParam | object | 否 | 定义输出视频的相关参数,不填时取各字段默认值。 |
VideoParam.EmotionLevel | int | 否 | 输出视频的人物情绪强度:可选强度:1,2,3;默认值是2。越大音频控制强度越强,但可能导致不自然。 |
返回参数
参数 | 类型 | 必须 | 说明 |
TaskId | string | 是 |
请求示例
文本驱动
{"Header": {},"Payload": {"RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg","DriverType": "Text","InputSsml": "你好,我是虚拟<phoneme alphabet=\\"py\\" ph=\\"fu4\\">主</phoneme>播","SpeechParam": {"TimbreKey": "female_1","Volume": 1,"Speed": 1.0}}}
音频驱动
{"Header": {},"Payload": {"RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg","DriverType": "OriginalVoice","InputAudioUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/audio.mp3"}}
返回示例
{"Header": {"Code": 0,"DialogID": "","Message": "","RequestID": "fde854eaa981c7f2f7285d1c7eca335b","SessionID": "gzb7dec22117297528294581119"},"Payload": {"TaskId": "81883d47c6154edf8e276531f09227b6"}}