音频制作接口

最近更新时间:2025-12-10 14:56:32

我的收藏

接口说明

对输入文本进行试听,需要试听的音色可以通过接口 查询声音资产信息 查询。

调用协议

HTTPS + JSON
POST     /v2/ivh/videomaker/broadcastservice/tts
Header   Content-Type: application/json;charset=utf-8

请求参数

参数
类型
必须
说明
TimbreKey
string
音色 key,当 VirtualmanKey 为空时 TimbreKey 不能为空
VirtualmanKey
string
定义播报的角色、服装、姿态、分辨率等信息,参数为枚举值,当 TimbreKey 为空时 VirtualmanKey 不能为空,默认选取匹配该形象的第一个音色制作音频。
InputSsml
string
需要播报的文本内容,支持 SSML 标签,上限2万字(字数按unicode字符数计算)
Speed
float
语速(1.0为正常语速,范围[0.5-1.5],值为0.5时播报语速最慢,值为1.5时播报语速最快)
AudioStorageS3Url
string
可传入含鉴权 S3 协议存储 URL,音频成品会上传至该 URL
SampleRate
int
采样率,支持24000(24k)和16000(16k),默认24000(24k)
Codec
string
音频格式,支持 mp3 和 wav,默认mp3
SentenceMaxWords
int
分句的字数上限,字数范围 [0,999],传0或不传时默认值30
SentenceDisplayPunctuation
string
分句里需要展示的标点符号,其中,传入特殊字符"0"表示标点符号都不展示,特殊符号"1"(默认取值)表示标点符号全都展示,也可自定义传入需要展示的标点符号
SentenceSplitPunctuation
string
需要断句的标点符号,默认取值。;?!………!?
Volume
int
音量大小,范围[0,10],对应音量大小。默认为0,代表正常音量,值越大音量越高。
说明:
TimbreKey 在 male_1-20、female_1-23(即男声1-20、女声1-23)间的音色不支持音量调节。
EmotionCategory
string
控制合成音频的情感,仅支持多情感音色使用,可选值参考个人资产管理API 4.5音色列表接口。
EmotionIntensity
int
控制合成音频情感程度,取值范围为 [50,200],只有 EmotionCategory 不为空时生效。
TimbreLanguage
string
音色语种,可选语种参考个人资产管理 API 分页查询音色列表 接口,多语种音色在合成时必须选择对应语种。

返回参数

参数
类型
必须
说明
TaskId
string
音频制作的任务 ID,携带 TaskId 访问<音视频制作进度查询接口>,可获得该音频的制作进度和下载地址。

请求示例

{
"Header": {},
"Payload": {
"VirtualmanKey": "k3dda2d3b56f4ec89778f2e032c2e294",
"InputSsml": "你好虚拟主播",
"Speed": 1
}
}

返回示例

成功
{
"Header": {
"Code": 0,
"DialogID": "",
"Message": "",
"RequestID": "fde854eaa981c7f2f7285d1c7eca335b",
"SessionID": "gzb7dec22117297528294581119"
},
"Payload": {
"TaskId": "81883d47c6154edf8e276531f09227b6"
}
}
失败
{
"Header": {
"RequestID": "d99cf740be48d7b0fb1eee4447b71781",
"SessionID": "gz6240ef0317651792698007383",
"DialogID": "",
"Code": 100001,
"Message": "InvalidParameter:请求参数错误: Speed value invalid,ranges:0.5-1.5"
}
}