Python SDK

最近更新时间:2019-09-16 16:26:08

流式语音合成 Python SDK 下载地址

接口请求域名:tts.cloud.tencent.com/stream

腾讯云语音合成技术(TTS)可以将任意文本转化为语音,实现让机器和应用张口说话。 腾讯 TTS 技术可以应用到很多场景,例如,移动 App 语音播报新闻,智能设备语音提醒,支持车载导航语音合成的个性化语音播报。本接口内测期间免费使用。

开发环境

基本编译环境
python 2.7版本
requests
安装方法:pip install requests 或先下载,然后进入目录执行:python setup.py install
下载 requests 链接

获取用户信息

获取 AppID,SecretId 与 SecretKey

  • 进入 API 密钥管理页面,获取 AppID、SecretId 与 SecretKey。
  • 具体路径为:单击 腾讯云控制台 右上角您的账号,选择【访问管理】>【访问密钥】>【API 密钥管理】界面查看 AppID 和 key。

更改用户信息配置文件
将查询到的用户信息更改到 conf/tcloud_auth.ini 配置文件中。

#需要配置成用户账号信息
[authorization]
AppId=1259***************
SecretId=AKID****************************
SecretKey=kFpwo**************************

开发相关

请求参数

参数名称 必选 类型 描述
Action String 本接口取值:TextToStreamAudio,不可更改。
AppId Int 用户在腾讯云注册账号的 AppId,具体可以参考 获取用户信息
SecretId String 用户在腾讯云注册账号 AppId 对应的 SecretId,获取方法同上。
Text String 合成语音的源文本。中文最大支持600个汉字(全角标点符号算一个汉字),英文最大支持1800个字母(半角标点符号算一个字母)。包含空格等字符时需要 URL encode 再传输。
SessionId String 一次请求对应一个 SessionId,会原样返回,建议传入类似于 uuid 的字符串防止重复。
ModelType Int 模型类型,1:默认模型,此字段只需设置为1即可。
Volume Float 音量大小,范围:[0,10],分别对应11个等级的音量,默认值为0,代表正常音量。没有静音选项。
输入除以上整数之外的其他参数不生效,按默认值处理。
Speed Int 语速,范围:[-2,2]分别对应不同语速:
-2代表0.6倍
-1代表0.8倍
0代表1.0倍(默认)
1代表1.2倍
2代表1.5倍
输入除以上整数之外的其他参数不生效,按默认值处理。
VoiceType Int 音色选择:
0:亲和女声(默认)
1:亲和男声
2:成熟男声
3:活力男声
4:温暖女声
5:情感女声
6:情感男声
PrimaryLanguage Int 主语言类型:
1:中文(默认)
2:英文
SampleRate Int 音频采样率:
16000:16k(默认)
8000:8k
Codec String 返回音频格式:
opus:返回多段含 opus 压缩分片音频,数据量小,建议使用(默认)。
pcm:返回二进制 pcm 音频,使用简单,但数据量大。
ProjectId Int 项目ID,可以根据控制台-账号中心-项目管理中的配置填写,如无配置请填写默认项目ID:0 。
Timestamp Int 当前 UNIX 时间戳,可记录发起 API 请求的时间。如果与当前时间相差过大,会引起签名过期错误。SDK 会自动赋值当前时间戳。
Expired Int 签名的有效期,是一个符合 UNIX Epoch 时间戳规范的数值,单位为秒;Expired 必须大于 Timestamp 且 Expired-Timestamp 小于90天。SDK默认设置1小时。

具体参数配置可以参考:conf/request_parameter.ini 的默认配置

请求 demo

python tcloud_tts.py

Python 快速入门例子

参考 python_tts_sdk/tcloud_tts.py

def task_process():
    req = request()
    req.init()
    auth = authorization()
    auth.init()

    #request_data = collections.OrderedDict()
    request_data = dict()
    request_data['Action'] = req.Action
    request_data['AppId'] = auth.AppId
    request_data['Codec'] = req.Codec
    request_data['Expired'] = int(time.time()) + auth.Expired
    request_data['ModelType'] = req.ModelType
    request_data['PrimaryLanguage'] = req.PrimaryLanguage
    request_data['ProjectId'] = req.ProjectId
    request_data['SampleRate'] = req.SampleRate
    request_data['SecretId'] = auth.SecretId
    request_data['SessionId'] = req.SessionId
    request_data['Speed'] = req.Speed
    request_data['Text'] = req.Text
    request_data['Timestamp'] = int(time.time())
    request_data['VoiceType'] = req.VoiceType
    request_data['Volume'] = req.Volume

    signature = auth.generate_sign(request_data = request_data)
    header = {
        "Content-Type": "application/json",
        "Authorization": str(signature)
    }
    url = "https://aai.cloud.tencent.com/tts"

    r = requests.post(url, headers=header, data=json.dumps(request_data), stream = True)
    '''
    if str(r.content).find("Error") != -1 :
        print(r.content)
        return
    '''
    i = 1
    wavfile = wave.open('test.wav', 'wb')
    wavfile.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))
    for chunk in r.iter_content(1000):
        if (i == 1) & (str(chunk).find("Error") != -1) :
            print(chunk)
            return 
        i = i + 1
        wavfile.writeframes(chunk)

    wavfile.close()