腾讯云智能数智人视频制作接口-照片免训练

接口说明
无需训练，即可基于一张形象照片（真人/卡通人物/卡通动物皆可），通过输入文本或音频，生成人物说话口型与输入内容相匹配的新视频。
通过 音视频制作进度查询接口 最终返回成品视频。目前音视频资源只保留7天，请尽快下载。
调用协议
HTTPS + JSON
POST     /v2/ivh/videomaker/broadcastservice/phototovideonotrain
Header   Content-Type: application/json;charset=utf-8
请求参数
参数
类型
必须
说明
RefPhotoUrl
string
是
请传入包含人像/卡通/动物面部的图片URL地址，并注意：
格式：支持 JPG、PNG、BMP、WEBP
大小：不超过 6MB
尺寸建议：单边在 192px ~ 4096px 之间，宽高比建议在 1:2 ~ 2:1
画面建议：请使用面部清晰、无严重遮挡的图片，避免使用无面部主体的图片（如风景、物体或文字截图）
DriverType
string
是
驱动类型，该字段必填。
Text：文本驱动，要求 InputSsml 字段必填。
OriginalVoice：原声音频驱动，要求 InputAudioUrl 字段必填。
InputAudioUrl
string
否
驱动数智人的音频 URL，当 DriverType 为 OriginalVoice 时，该字段必填。格式要求如下：
时长范围：2秒-60秒
支持格式：wav、mp3、wma、m4a、aac、ogg
文件大小：≤10M
InputSsml
string
否
播报文本内容，支持 SSML 标签，支持的标签类型参照 数智人 SSML 标记语言规范，标签写法参照示例，内容不能换行，符号需转义。上限300字（文本驱动底层会转换为音频，如果时长超过60秒时任务会制作失败），不少于4个字（字数按 Unicode 字符数计算）。DriverType 为空、或 Text 时，该字段必填。
SpeechParam
object
否
定义音频的详细参数。DriverType 为 Text 时，该字段必填。
SpeechParam.Speed
float
否
语速（1.0为正常语速，范围[0.5-1.5]，值为0.5时播报语速最慢，值为1.5时播报语速最快， DriverType 为音频驱动类型时，语速控制不生效），DriverType 为 Text 时，该字段必填。
SpeechParam.TimbreKey
string
否
音色 Key，DriverType 为 Text 时，该字段必填。
SpeechParam.Volume
int
否
音量大小，范围[0，10]，对应音量大小。默认为0，代表正常音量，值越大音量越高。
说明：
TimbreKey 在 male_1-20、female_1-23（即男声1-20、女声1-23）间的音色不支持音量调节。
SpeechParam.EmotionCategory
string
否
控制合成音频的情感，仅支持多情感音色使用，可选值参考个人资产管理 API 分页查询音色列表接口。
SpeechParam.EmotionIntensity
int
否
控制合成音频情感程度，取值范围为 [50,200]，只有 EmotionCategory 不为空时生效。
SpeechParam.TimbreLanguage
string
否
音色语种，可选语种参考个人资产管理 API 分页查询音色列表 接口，多语种音色在合成时必须选择对应语种。
CallbackUrl
string
否
当用户增加回调 URL 时，将把视频制作结果以固定格式发送 POST 请求到该 URL 地址，固定格式见 附录二： 回调请求体格式，需注意：
1. 限制 CallbackUrl 长度小于1000。
2. 只发送一次请求，无论是哪种问题导致的请求失败，都不会再进行发送。
VideoStorageS3Url
string
否
可传入含鉴权 S3 协议存储 URL，视频成品会上传至该 URL。
VideoParam
object
否
定义输出视频的相关参数，不填时取各字段默认值。
VideoParam.Resolution
int
否
输出视频的分辨率，可选。
0：720P（默认值）：高效省时之选，每秒视频渲染预计需要20秒。 
1：1080P：画面质感更优，渲染时间约为720P的2倍以上。
VideoParam.Prompt
string
否
人物表现提示词，用于定义数字人的行为与动作。最大长度不超过 5000 字符（按 Unicode 字符数计算）。
注意：当此参数留空时，系统将自动使用默认提示词：“画面中的人物正在对着镜头讲话，偶尔做些手势匹配说话的内容。镜头保持固定。”
返回参数
参数
类型
必须
说明
TaskId
string
是
视频制作的任务 ID，携带 TaskId 访问 音视频制作进度查询接口，可获得制作进度和制作结果
请求示例
文本驱动
{  
  "Header": {},  
  "Payload": {   
    "RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg",   
    "DriverType": "Text",    
    "InputSsml": "你好，我是虚拟<phoneme alphabet=\\"py\\" ph=\\"fu4\\">主</phoneme>播",    
    "SpeechParam": {      
      "TimbreKey": "female_1",      
      "Volume": 1,      
      "Speed": 1.0    
    }  
  }
}
﻿
音频驱动
{  
   "Header": {},  
   "Payload": {   
     "RefPhotoUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/ref_photo.jpg",    
     "DriverType": "OriginalVoice",    
     "InputAudioUrl": "http://virtualhuman-cos-test-1251316161.cos.ap-nanjing.myqcloud.com/audio.mp3"  
    }
}
返回示例
成功
{
    "Header": {
        "Code": 0,
        "DialogID": "",
        "Message": "",
        "RequestID": "fde854eaa981c7f2f7285d1c7eca335b",
        "SessionID": "gzb7dec22117297528294581119"
    },
    "Payload": {
        "TaskId": "81883d47c6154edf8e276531f09227b6"
    }
}
失败
{
    "Header": {
        "RequestID": "d99cf740be48d7b0fb1eee4447b71781",
        "SessionID": "gz6240ef0317651792698007383",
        "DialogID": "",
        "Code": 100001,
        "Message": "InvalidParameter:请求参数错误:  Speed value invalid，ranges:0.5-1.5"
    }
}
﻿
 
 

参数	类型	必须	说明
RefPhotoUrl	string	是	请传入包含人像/卡通/动物面部的图片URL地址，并注意：格式：支持 JPG、PNG、BMP、WEBP 大小：不超过 6MB 尺寸建议：单边在 192px ~ 4096px 之间，宽高比建议在 1:2 ~ 2:1 画面建议：请使用面部清晰、无严重遮挡的图片，避免使用无面部主体的图片（如风景、物体或文字截图）
DriverType	string	是	驱动类型，该字段必填。 Text：文本驱动，要求 InputSsml 字段必填。 OriginalVoice：原声音频驱动，要求 InputAudioUrl 字段必填。
InputAudioUrl	string	否	驱动数智人的音频 URL，当 DriverType 为 OriginalVoice 时，该字段必填。格式要求如下：时长范围：2秒-60秒支持格式：wav、mp3、wma、m4a、aac、ogg 文件大小：≤10M
InputSsml	string	否	播报文本内容，支持 SSML 标签，支持的标签类型参照数智人 SSML 标记语言规范，标签写法参照示例，内容不能换行，符号需转义。上限300字（文本驱动底层会转换为音频，如果时长超过60秒时任务会制作失败），不少于4个字（字数按 Unicode 字符数计算）。DriverType 为空、或 Text 时，该字段必填。
SpeechParam	object	否	定义音频的详细参数。DriverType 为 Text 时，该字段必填。
SpeechParam.Speed	float	否	语速（1.0为正常语速，范围[0.5-1.5]，值为0.5时播报语速最慢，值为1.5时播报语速最快， DriverType 为音频驱动类型时，语速控制不生效），DriverType 为 Text 时，该字段必填。
SpeechParam.TimbreKey	string	否	音色 Key，DriverType 为 Text 时，该字段必填。
SpeechParam.Volume	int	否	音量大小，范围[0，10]，对应音量大小。默认为0，代表正常音量，值越大音量越高。说明： TimbreKey 在 male_1-20、female_1-23（即男声1-20、女声1-23）间的音色不支持音量调节。
SpeechParam.EmotionCategory	string	否	控制合成音频的情感，仅支持多情感音色使用，可选值参考个人资产管理 API 分页查询音色列表接口。
SpeechParam.EmotionIntensity	int	否	控制合成音频情感程度，取值范围为 [50,200]，只有 EmotionCategory 不为空时生效。
SpeechParam.TimbreLanguage	string	否	音色语种，可选语种参考个人资产管理 API 分页查询音色列表接口，多语种音色在合成时必须选择对应语种。
CallbackUrl	string	否	当用户增加回调 URL 时，将把视频制作结果以固定格式发送 POST 请求到该 URL 地址，固定格式见附录二：回调请求体格式，需注意： 1. 限制 CallbackUrl 长度小于1000。 2. 只发送一次请求，无论是哪种问题导致的请求失败，都不会再进行发送。
VideoStorageS3Url	string	否	可传入含鉴权 S3 协议存储 URL，视频成品会上传至该 URL。
VideoParam	object	否	定义输出视频的相关参数，不填时取各字段默认值。
VideoParam.Resolution	int	否	输出视频的分辨率，可选。 0：720P（默认值）：高效省时之选，每秒视频渲染预计需要20秒。 1：1080P：画面质感更优，渲染时间约为720P的2倍以上。
VideoParam.Prompt	string	否	人物表现提示词，用于定义数字人的行为与动作。最大长度不超过 5000 字符（按 Unicode 字符数计算）。注意：当此参数留空时，系统将自动使用默认提示词：“画面中的人物正在对着镜头讲话，偶尔做些手势匹配说话的内容。镜头保持固定。”

视频制作接口-照片免训练

本页目录：

接口说明

调用协议

请求参数

返回参数

请求示例

返回示例