一句话识别

最近更新时间:2019-07-24 14:53:51

1. 接口描述

接口请求域名: asr.tencentcloudapi.com 。

本接口用于对60秒之内的短音频文件进行识别,支持本地语音文件上传和语音URL上传两种请求方式。

当音频文件通过请求中body内容上传时,请求大小不能超过600KB;当音频以url方式传输时,音频时长不可超过60s。

所有请求参数放在POST请求的body中,编码类型采用x-www-form-urlencoded,参数进行urlencode编码后传输。

现暂只支持中文普通话和带有一定方言口音的中文普通话识别,支持识别8k16bit和16k16bit的mp3或者wav格式的单声道音频。

默认接口请求频率限制:25次/秒。

2. 输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数

参数名称 必选 类型 描述
Action String 公共参数,本接口取值:SentenceRecognition
Version String 公共参数,本接口取值:2019-06-14
Region String 公共参数,本接口不需要传递此参数。
ProjectId Integer 腾讯云项目 ID,可填 0,总长度不超过 1024 字节。
SubServiceType Integer 子服务类型。2: 一句话识别。
EngSerViceType String 引擎类型。8k:电话 8k 通用模型;16k:16k 通用模型。只支持单声道音频识别。
SourceType Integer 语音数据来源。0:语音 URL;1:语音数据(post body)。
VoiceFormat String 识别音频的音频格式(支持mp3,wav)。
UsrAudioKey String 用户端对此任务的唯一标识,用户自助生成,用于用户查找识别结果。
Url String 语音 URL,公网可下载。当 SourceType 值为 0(语音 URL上传) 时须填写该字段,为 1 时不填;URL 的长度大于 0,小于 2048,需进行urlencode编码。音频时间长度要小于60s。
Data String 语音数据,当SourceType 值为1(本地语音数据上传)时必须填写,当SourceType 值为0(语音 URL上传)可不写。要使用base64编码(采用python语言时注意读取文件应该为string而不是byte,以byte格式读取后要decode()。编码后的数据不可带有回车换行符)。音频数据要小于600KB。
DataLen Integer 数据长度,单位为字节。当 SourceType 值为1(本地语音数据上传)时必须填写,当 SourceType 值为0(语音 URL上传)可不写(此数据长度为数据未进行base64编码时的数据长度)。

3. 输出参数

参数名称 类型 描述
Result String 识别结果。
RequestId String 唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。

4. 示例

示例1 通过语音URL形式调用接口

用户通过语音url(http%3A%2F%2Ftest-1256085166.cos.ap-guangzhou.myqcloud.com%2Fcase13.wav)的方式(SourceType为0)请求一句话识别服务,服务的引擎模型为:电话 8k (EngSerViceType = 8k),一句话语音的采样率为8k,声道数为单声道,长度为159768字节。

输入示例

https://asr.tencentcloudapi.com/?Action=SentenceRecognition
&ProjectId=0
&SubServiceType=2
&EngSerViceType=8k
&SourceType=0
&Url=http%3A%2F%2Ftest-1256085166.cos.ap-guangzhou.myqcloud.com%2Fcase13.wav
&SecretId=111
&Timestamp=111
&VoiceFormat=wav
&UsrAudioKey=www
&DataLen=159768
&<公共请求参数>

输出示例

{
  "Response": {
    "Result": "张先生,您好。那个为了规范保险从业人员的销售行为,也为了更好的保护您的合法权益。",
    "RequestId": "8984d9a9-343f-4c67-8fd9-5c79510a12da"
  }
}

示例2 通过语音数据上传形式调用接口

用户通过上传语音数据(Data)的方式(SourceType为1)请求一句话识别服务,服务的引擎模型为:电话 8k (EngSerViceType = 8k),一句话语音的采样率为8k,声道数为单声道,长度为159768字节。

输入示例

https://asr.tencentcloudapi.com/?Action=SentenceRecognition
&ProjectId=0
&SubServiceType=2
&EngSerViceType=8k
&SourceType=1
&SecretId=111
&Timestamp=111
&VoiceFormat=wav
&UsrAudioKey=www
&Data=00011100111
&DataLen=159768
&<公共请求参数>

输出示例

{
  "Response": {
    "Result": "张先生,您好。那个为了规范保险从业人员的销售行为,也为了更好的保护您的合法权益。",
    "RequestId": "8984d9a9-343f-4c67-8fd9-5c79510a12da"
  }
}

5. 开发者资源

API Explorer

该工具提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力,能显著降低使用云 API 的难度,推荐使用。

SDK

云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

命令行工具

6. 错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

错误码 描述
FailedOperation.ServiceIsolate 账号因为欠费停止服务,请在腾讯云账户充值。
FailedOperation.UserHasNoFreeAmount 账号本月免费额度已用完。
FailedOperation.UserNotRegistered 服务未开通,请在腾讯云官网语音识别控制台开通服务。
InternalError 内部错误。
InternalError.ErrorConfigure 初始化配置失败。
InternalError.ErrorCreateLog 创建日志失败。
InternalError.ErrorDownFile 下载音频文件失败。
InternalError.ErrorFailNewprequest 新建数组失败。
InternalError.ErrorFailWritetodb 写入数据库失败。
InternalError.ErrorFileCannotopen 文件无法打开。
InternalError.ErrorGetRoute 获取路由失败。
InternalError.ErrorMakeLogpath 创建日志路径失败。
InternalError.ErrorRecognize 识别失败。
InvalidParameter.ErrorContentlength 请求数据长度无效。
InvalidParameter.ErrorParamsMissing 参数不全。
InvalidParameter.ErrorParsequest 解析请求数据失败。
InvalidParameterValue 参数取值错误。
InvalidParameterValue.ErrorInvalidAppid AppId无效。
InvalidParameterValue.ErrorInvalidClientip ClientIp无效。
InvalidParameterValue.ErrorInvalidEngservice EngSerViceType无效。
InvalidParameterValue.ErrorInvalidProjectid ProjectId无效。
InvalidParameterValue.ErrorInvalidRequestid RequestId无效。
InvalidParameterValue.ErrorInvalidSourcetype SourceType无效。
InvalidParameterValue.ErrorInvalidSubservicetype SubserviceType无效。
InvalidParameterValue.ErrorInvalidUrl Url无效。
InvalidParameterValue.ErrorInvalidUseraudiokey UsrAudioKey无效。
InvalidParameterValue.ErrorInvalidVoiceFormat 音频编码格式不支持。
InvalidParameterValue.ErrorInvalidVoicedata 音频数据无效。