接口说明

最近更新时间:2020-09-17 16:03:29

接口描述

本接口服务对时长5小时以内的录音文件进行识别,异步返回识别全部结果, HTTP RESTful 形式。

  • 支持中文普通话、英语、粤语、日语和上海话方言
  • 支持通用、音视频领域
  • 支持 wav、mp3、m4a 的音频格式
  • 支持语音 URL 和本地语音文件两种请求方式
  • 语音 URL 的音频时长不能长于5小时,文件大小不超过512MB
  • 本地语音文件上传的文件不能大于5MB
说明:

提交录音文件识别请求后,在5小时内完成识别(半小时内发送超过1000小时录音或者2万条识别任务的除外),识别结果在服务端可保存7天。

接口说明请观看视频:

接口要求

使用录音文件识别 SDK 时,需按照以下要求。

内容 说明
音频属性 采样率16k或8k、采样精度16bits、单声道或双声道,查看音频属性请参见 常见问题
音频格式 支持 wav、mp3、m4a
数据长度 语音 URL 的音频时长不能长于5小时,文件大小不超过512MB
本地语音文件不能大于5MB
免费额度 每月10小时

使用步骤

  1. 首先获取您的 AppID、SecretID 和 SecretKey。在使用该接口前,需要在 语音识别控制台 开通服务,并进入 API 密钥管理页面 新建密钥,生成 AppID、SecretID 和 SecretKey ,用于 SDK 调用时生成签名,签名将用来进行接口鉴权。
  2. 查看您的音频属性和格式,应满足接口支持的属性和格式,否则会请求失败。
  3. 通过 SDK 提交录音文件识别的请求,请求参数可以查看 录音文件识别请求 接口文档,正常情况下服务器端会返回该请求的状态。
  4. 如果返回的 code = 0,表示请求成功,用户可以选择轮询或者回调的方式获得识别结果:
    • 轮询方式请参考 录音文件识别结果查询 接口文档;
    • 回调方式需要用户在调用语音识别请求时给出回调 URL ,当语音识别系统完成识别后,会将结果通过 HTTP POST 请求的形式通知到用户,用户需要在自身业务服务器上搭建服务接收回调,具体见下面介绍;
  5. 如果返回的 code 不为 0,请参见 录音文件识别请求 接口文档中的错误码详情。
  6. 如果识别效果有问题,请参考 识别效果问题排查文档 进行排查。

录音文件识别请求

请求参数具体参见:录音文件识别请求 接口文档 。

录音文件识别结果回调

录音文件识别结果回调包括:服务端回调结果用户客户端确认

识别结果回调

服务端结果返回示例:

code=0&requestId=500&appid=12000001&projectid=0&text=%e6%82%a8%e5%a5%bd&audioUrl=http%3a%2f%2ftest.qq.com%2fvoice_url&audioTime=2.5&message=success
注意:

为了防止某些字段中,出现诸如 “&” 等特殊字符,导致解包失败,所有字段的 value 值都将进行 url_encode 之后发送给用户业务服务器,在获取 value 之后,需要先对 value 进行 url_decode 以获取原始 value 值。

服务端返回参数说明

字段 类型 描述
code Int 服务器错误码,0 为成功,其他:失败
message String 成功或者失败原因文字描述
requestId Int 请求 ID,与后台任务 ID 一一对应
AppId Int 腾讯云应用 ID
projectid Int 腾讯云项目 ID
audioUrl String 语音下载 URL。如果语音源非公网可下载 URL,则不包含该字段
text String 识别出的结果文本
audioTime Double 语音总时长

客户端确认

语音识别系统发起请求,收到请求后,用户侧需要以 JSON 格式回以响应。

客户端确认示例:

{ "code" : 0, "message" : "成功" }

客户端确认参数说明

参数名称 类型 描述
code Int 错误码,0为成功,其他值代表失败
message String 失败原因说明,例如业务服务器过载。 如果业务服务器返回失败,会间隔一段时间重新通知

回调错误码

数值 说明
10000 语音非标准格式,转码失败
10001 识别不成功
10002 语音时长过长
10003 语音时长过长
10004 无效的语音文件
10005 其他失败
10006 音轨个数不匹配
目录