1. 接口描述
接口请求域名: asr.tencentcloudapi.com 。
本接口可对较长的录音文件进行识别。如希望直接使用带界面的语音识别产品,请访问产品体验中心。产品计费标准请查阅 计费概述(在线版)
• 接口默认限频:20次/秒。此处仅限制任务提交频次,与识别结果返回时效无关
• 返回时效:异步回调,非实时返回。最长3小时返回识别结果,大多数情况下,1小时的音频1-3分钟即可完成识别。请注意:上述返回时长不含音频下载时延,且30分钟内发送超过1000小时录音或2万条任务的情况除外
• 音频格式:wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac
• 支持语言:在本页面上搜索 EngineModelType,或前往 产品功能 查看
• 音频提交方式:本接口支持音频 URL 、本地音频文件两种请求方式。推荐使用 腾讯云COS 来存储、生成URL并提交任务,此种方式将不产生外网和流量下行费用,可节约成本、提升任务速度(可参考COS预签名指南:使用预签名 URL 访问 COS ,获取COS预签名url)
• 音频限制:音频 URL 时长不能大于5小时,文件大小不超过1GB;本地音频文件不能大于5MB
• 如何获取识别结果:支持回调或轮询的方式获取结果,具体请参考 录音文件识别结果查询
• 识别结果有效时间:识别结果在服务端保存24小时
• 签名方法参考 公共参数 中签名方法 v3
默认接口请求频率限制:20次/秒。
2. 输入参数
以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数。
| 参数名称 | 必选 | 类型 | 描述 |
|---|---|---|---|
| Action | 是 | String | 公共参数,本接口取值:CreateRecTask。 |
| Version | 是 | String | 公共参数,本接口取值:2019-06-14。 |
| Region | 否 | String | 公共参数,此参数为可选参数。 |
| EngineModelType | 是 | String | 引擎模型类型 电话通讯场景引擎: 注意:如您有电话通讯场景识别需求,但发现需求语种仅支持16k,可将8k音频传入下方16k引擎,亦能获取识别结果。但16k引擎并非基于电话通讯数据训练,无法承诺此种调用方式的识别效果,需由您自行验证识别结果是否可用 通用场景引擎: 枚举值:
示例值:16k_zh |
| ChannelNum | 是 | Integer | 识别声道数 注意: 示例值:1 |
| ResTextFormat | 是 | Integer | 识别结果返回样式 注意: 示例值:0 |
| SourceType | 是 | Integer | 音频数据来源 示例值:0 |
| Data | 否 | String | 音频数据base64编码 注意:音频数据要小于5MB(含) 示例值:UklGRka1CQBXQVZFZm10zOjQzAABJU0ZUDgAAAE |
| DataLen | 否 | Integer | 数据长度(此数据长度为数据未进行base64编码时的长度) 示例值:50 |
| Url | 否 | String | 音频URL的地址(需要公网环境浏览器可下载) 注意:
示例值:https://audio.cos.ap-guangzhou.myqcloud.com/example.wav |
| CallbackUrl | 否 | String | 回调 URL 注意:
示例值:https://xxxx.xxx.xxx/callback |
| SpeakerDiarization | 否 | Integer | 是否开启说话人分离 注意: 示例值:0 |
| SpeakerNumber | 否 | Integer | 说话人分离人数 示例值:0 |
| HotwordId | 否 | String | 热词表id 示例值:769762aexxxxxxxxxxec3cda3142e |
| CustomizationId | 否 | String | 自学习定制模型 id 示例值:769762aexxxxxxxxxxec3cda3142e |
| EmotionRecognition | 否 | Integer | 【增值付费功能】情绪识别能力(目前仅支持 16k_zh , 16k_zh_en , 8k_zh ) 注意:
示例值:0 |
| EmotionalEnergy | 否 | Integer | 情绪能量值 示例值:0 |
| ConvertNumMode | 否 | Integer | 阿拉伯数字智能转换(目前支持中文普通话引擎) 示例值:0 |
| FilterDirty | 否 | Integer | 脏词过滤(目前支持中文普通话引擎) 示例值:0 |
| FilterPunc | 否 | Integer | 标点符号过滤(目前支持中文普通话引擎) 示例值:0 |
| FilterModal | 否 | Integer | 语气词过滤(目前支持中文普通话引擎) 示例值:0 |
| SentenceMaxLength | 否 | Integer | 单标点最多字数(目前支持中文普通话引擎) 注意:需设置ResTextFormat为3,解析返回的ResultDetail列表,通过结构中FinalSentence获取单个标点断句结果 示例值:0 |
| Extra | 否 | String | 附加参数(该参数无意义,忽略即可) 示例值:无意义参数 |
| HotwordList | 否 | String | 临时热词表:该参数用于提升识别准确率。
注意:
示例值:腾讯云|10,语音识别|5,ASR|11 |
| KeyWordLibIdList.N | 否 | Array of String | 关键词识别ID列表,默认空为不进行识别,最多10个 示例值:["sdsdasdasf","asdfasdasd"] |
| ReplaceTextId | 否 | String | 替换词汇表id, 适用于热词和自学习场景也无法解决的极端case词组, 会对识别结果强制替换。具体可参考配置控制台;强制替换功能可能会影响正常识别结果,请谨慎使用 注意:
示例值:26910027**d9fa530f9f39dcd35d8 |
| SpeakerRoles.N | 否 | Array of SpeakerRoleInfo | 开启角色分离能力配合SpeakerDiarization: 3 使用,ASR增值服务,仅可传入一组声纹信息进行角色认证,仅支持16k_zh_en引擎。需传入SpeakerRoleInfo数据组,确定说话人的角色信息,涉及RoleAudioUrl和RoleName两个参数。 RoleAudioUrl:需要认证角色的声纹音频地址,建议30s内的纯净人声,最长不能超过45s。 RoleName:需要认证角色的名称,若匹配成功,会替换话者分离中的SpeakerID。 示例: "{"EngineModelType":"16k_zh_en","ChannelNum":1,"ResTextFormat":1,"SourceType":0,"Url":"需要进行ASR识别的音频链接","SpeakerDiarization":3,"SpeakerRoles":[{"RoleAudioUrl":"需要认证角色的声纹音频地址","RoleName":"需要认证角色的名称"}]}" |
3. 输出参数
| 参数名称 | 类型 | 描述 |
|---|---|---|
| Data | Task | 录音文件识别的请求返回结果,包含结果查询需要的TaskId。 |
| RequestId | String | 唯一请求 ID,由服务端生成,每次请求都会返回(若请求因其他原因未能抵达服务端,则该次请求不会获得 RequestId)。定位问题时需要提供该次请求的 RequestId。 |
4. 示例
示例1 通过音频Url来调用接口
用户通过音频Url的方式(SourceType为0)请求录音识别服务,请求模型为16k中文 (EngineModelType = 16k_zh),音频格式为wav(采样率为16k,单声道)
输入示例
POST / HTTP/1.1
Host: asr.tencentcloudapi.com
Content-Type: application/json; charset=utf-8
X-TC-Version: 2019-06-14
X-TC-Region: ap-shanghai
X-TC-Action: CreateRecTask
X-TC-Timestamp: 1599142560
Authorization: TC3-HMAC-SHA256 Credential=************************************************************/2020-09-03/asr/tc3_request, SignedHeaders=content-type;host, Signature=524ed61a4a71de417f4fa41249dcb428a0c51013890f24f3492068ca7cd16953
<公共请求参数>
{
"Url": "http://test.cos.ap-guangzhou.myqcloud.com/test.wav",
"ChannelNum": 1,
"EngineModelType": "16k_zh",
"ResTextFormat": 0,
"SourceType": 0
}
输出示例
{
"Response": {
"RequestId": "3c140219-cfe9-470e-b241-907877d6fb03",
"Data": {
"TaskId": 1393265
}
}
}
示例2 通过音频数据来调用接口
用户通过上传音频数据(Data)的方式(SourceType为1)请求录音识别服务,请求模型为16k中文 (EngineModelType = 16k_zh),音频格式为wav(采样率为16k,单声道)
输入示例
POST / HTTP/1.1
Host: asr.tencentcloudapi.com
Content-Type: application/json; charset=utf-8
X-TC-Version: 2019-06-14
X-TC-Region: ap-shanghai
X-TC-Action: CreateRecTask
X-TC-Timestamp: 1599142560
Authorization: TC3-HMAC-SHA256 Credential=************************************************************/2020-09-03/asr/tc3_request, SignedHeaders=content-type;host, Signature=524ed61a4a71de417f4fa41249dcb428a0c51013890f24f3492068ca7cd16953
<公共请求参数>
{
"ChannelNum": 1,
"EngineModelType": "16k_zh",
"ResTextFormat": 0,
"Data": "eGNmYXNkZmFzZmFzZGZhc2RmCg==",
"SourceType": 1
}
输出示例
{
"Response": {
"RequestId": "3c140219-cfe9-470e-b241-907877d6fb03",
"Data": {
"TaskId": 1396665
}
}
}
5. 开发者资源
腾讯云 API 平台
腾讯云 API 平台 是综合 API 文档、错误码、API Explorer 及 SDK 等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有 API 服务。
API Inspector
用户可通过 API Inspector 查看控制台每一步操作关联的 API 调用情况,并自动生成各语言版本的 API 代码,也可前往 API Explorer 进行在线调试。
SDK
云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。
- Tencent Cloud SDK 3.0 for Python: CNB, GitHub, Gitee
- Tencent Cloud SDK 3.0 for Java: CNB, GitHub, Gitee
- Tencent Cloud SDK 3.0 for PHP: CNB, GitHub, Gitee
- Tencent Cloud SDK 3.0 for Go: CNB, GitHub, Gitee
- Tencent Cloud SDK 3.0 for Node.js: CNB, GitHub, Gitee
- Tencent Cloud SDK 3.0 for .NET: CNB, GitHub, Gitee
- Tencent Cloud SDK 3.0 for C++: CNB, GitHub, Gitee
- Tencent Cloud SDK 3.0 for Ruby: CNB, GitHub, Gitee
命令行工具
6. 错误码
以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码。
| 错误码 | 描述 |
|---|---|
| AuthFailure.InvalidAuthorization | 鉴权错误。 |
| FailedOperation.CheckAuthInfoFailed | 鉴权错误。 |
| FailedOperation.ErrorDownFile | 下载音频文件失败。 |
| FailedOperation.ErrorRecognize | 识别失败。 |
| FailedOperation.ServiceIsolate | 账号因为欠费停止服务,请在腾讯云账户充值。 |
| FailedOperation.UserHasNoAmount | 资源包耗尽,请购买资源包或开通后付费 |
| FailedOperation.UserHasNoFreeAmount | 资源包耗尽,请开通后付费或者购买资源包 |
| FailedOperation.UserNotRegistered | 服务未开通,请在腾讯云官网语音识别控制台开通服务。 |
| InternalError.ErrorDownFile | 下载音频文件失败。 |
| InternalError.FailAccessDatabase | 访问数据库失败。 |
| InternalError.FailAccessRedis | 访问Redis失败。 |
| InvalidParameter | 参数错误。 |
| InvalidParameterValue | 参数取值错误。 |
| MissingParameter | 缺少参数错误。 |
| RequestLimitExceeded.UinLimitExceeded | 超出请求频率。 |
| UnknownParameter | 未知参数错误。 |