录音文件识别请求

最近更新时间:2021-03-24 08:00:41

我的收藏

1. 接口描述

接口请求域名: asr.tencentcloudapi.com 。

本接口服务对时长5小时以内的录音文件进行识别,异步返回识别全部结果。
• 支持中文普通话、英语、粤语、日语
• 支持通用、音视频领域
• 支持wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac格式
• 支持语音 URL 和本地语音文件两种请求方式
• 语音 URL 的音频时长不能长于5小时,文件大小不超过512MB
• 本地语音文件不能大于5MB
• 提交录音文件识别请求后,在5小时内完成识别(半小时内发送超过1000小时录音或者2万条识别任务的除外),识别结果在服务端可保存7天
• 支持回调或轮询的方式获取结果,结果获取请参考 录音文件识别结果查询
• 请求方法为 HTTP POST , Content-Type为"application/json; charset=utf-8"
• 签名方法参考 公共参数 中签名方法v3。
• 默认接口请求频率限制:20次/秒,如您有提高请求频率限制的需求,请提工单进行咨询。

默认接口请求频率限制:20次/秒。

推荐使用 API Explorer
点击调试
API Explorer 提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成 SDK 调用示例。

2. 输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数

参数名称 必选 类型 描述
Action String 公共参数,本接口取值:CreateRecTask。
Version String 公共参数,本接口取值:2019-06-14。
Region String 公共参数,本接口不需要传递此参数。
EngineModelType String 引擎模型类型。
电话场景:
• 8k_en:电话 8k 英语;
• 8k_zh:电话 8k 中文普通话通用;
非电话场景:
• 16k_zh:16k 中文普通话通用;
• 16k_zh_video:16k 音视频领域;
• 16k_en:16k 英语;
• 16k_ca:16k 粤语;
• 16k_ja:16k 日语;
• 16k_zh_edu 中文教育;
• 16k_en_edu 英文教育;
• 16k_zh_medical 医疗;
• 16k_th 泰语;
ChannelNum Integer 识别声道数。1:单声道;2:双声道(仅支持 8k_zh 引擎模)。注意:录音识别会自动将音频转码为填写的识别声道数
ResTextFormat Integer 识别结果返回形式。0: 识别结果文本(含分段时间戳); 1:词级别粒度的详细识别结果(不含标点,含语速值);2:词级别粒度的详细识别结果(包含标点、语速值)
SourceType Integer 语音数据来源。0:语音 URL;1:语音数据(post body)。
SpeakerDiarization Integer 是否开启说话人分离,0:不开启,1:开启(仅支持8k_zh,16k_zh,16k_zh_video引擎模型,单声道音频)
SpeakerNumber Integer 说话人分离人数(需配合开启说话人分离使用),取值范围:0-10,0代表自动分离(目前仅支持≤6个人),1-10代表指定说话人数分离。
注:话者分离目前是beta版本,请根据您的需要谨慎使用
CallbackUrl String 回调 URL,用户自行搭建的用于接收识别结果的服务URL。如果用户使用轮询方式获取识别结果,则无需提交该参数。回调格式&内容详见:录音识别回调说明
Url String 语音的URL地址,需要公网可下载。长度小于2048字节,当 SourceType 值为 0 时须填写该字段,为 1 时不需要填写。注意:请确保录音文件时长在5个小时之内,否则可能识别失败。请保证文件的下载速度,否则可能下载失败。
Data String 语音数据,当SourceType 值为1时必须填写,为0可不写。要base64编码(采用python语言时注意读取文件应该为string而不是byte,以byte格式读取后要decode()。编码后的数据不可带有回车换行符)。音频数据要小于5MB。
DataLen Integer 数据长度,非必填(此数据长度为数据未进行base64编码时的数据长度)。
HotwordId String 热词id。用于调用对应的热词表,如果在调用语音识别服务时,不进行单独的热词id设置,自动生效默认热词;如果进行了单独的热词id设置,那么将生效单独设置的热词id。
FilterDirty Integer 是否过滤脏词(目前支持中文普通话引擎)。0:不过滤脏词;1:过滤脏词;2:将脏词替换为 * 。默认值为 0。
FilterModal Integer 是否过滤语气词(目前支持中文普通话引擎)。0:不过滤语气词;1:部分过滤;2:严格过滤 。默认值为 0。
ConvertNumMode Integer 是否进行阿拉伯数字智能转换(目前支持中文普通话引擎)。0:不转换,直接输出中文数字,1:根据场景智能转换为阿拉伯数字,3: 打开数学相关数字转换。默认值为 1。
Extra String 附加参数
FilterPunc Integer 是否过滤标点符号(目前支持中文普通话引擎)。 0:不过滤,1:过滤句末标点,2:过滤所有标点。默认为0。

3. 输出参数

参数名称 类型 描述
Data Task 录音文件识别的请求返回结果,包含结果查询需要的TaskId
RequestId String 唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。

4. 示例

示例1 通过语音Url来调用接口

用户通过语音Url的方式(SourceType为0)请求录音识别服务,请求模型为16k中文 (EngineModelType = 16k_zh),音频格式为wav(采样率为16k,单声道)

输入示例

POST / HTTP/1.1
Host: asr.tencentcloudapi.com
Content-Type: application/json; charset=utf-8
X-TC-Version: 2019-06-14
X-TC-Region: ap-shanghai
X-TC-Action: CreateRecTask
X-TC-Timestamp: 1599142560
Authorization: TC3-HMAC-SHA256 Credential=AKIDYu6A16GdCxUlnbTSVItxvhOr6B2xxxxx/2020-09-03/asr/tc3_request, SignedHeaders=content-type;host, Signature=524ed61a4a71de417f4fa41249dcb428a0c51013890f24f3492068ca7cd16953
<公共请求参数>

{
    "Url": "http://test.cos.ap-guangzhou.myqcloud.com/test.wav",
    "ChannelNum": 1,
    "EngineModelType": "16k_zh",
    "ResTextFormat": 0,
    "SourceType": 0
}

输出示例

{
  "Response": {
    "RequestId": "3c140219-cfe9-470e-b241-907877d6fb03",
    "Data": {
      "TaskId": 1393265
    }
  }
}

示例2 通过语音数据来调用接口

用户通过上传语音数据(Data)的方式(SourceType为1)请求录音识别服务,请求模型为16k中文 (EngineModelType = 16k_zh),音频格式为wav(采样率为16k,单声道)

输入示例

POST / HTTP/1.1
Host: asr.tencentcloudapi.com
Content-Type: application/json; charset=utf-8
X-TC-Version: 2019-06-14
X-TC-Region: ap-shanghai
X-TC-Action: CreateRecTask
X-TC-Timestamp: 1599142560
Authorization: TC3-HMAC-SHA256 Credential=AKIDYu6A16GdCxUlnbTSVItxvhOr6B2xxxxx/2020-09-03/asr/tc3_request, SignedHeaders=content-type;host, Signature=524ed61a4a71de417f4fa41249dcb428a0c51013890f24f3492068ca7cd16953
<公共请求参数>

{
    "ChannelNum": 1,
    "EngineModelType": "16k_zh",
    "ResTextFormat": 0,
    "Data": "eGNmYXNkZmFzZmFzZGZhc2RmCg==",
    "SourceType": 1
}

输出示例

{
  "Response": {
    "RequestId": "3c140219-cfe9-470e-b241-907877d6fb03",
    "Data": {
      "TaskId": 1396665
    }
  }
}

5. 开发者资源

腾讯云 API 平台

腾讯云 API 平台 是综合 API 文档、错误码、API Explorer 及 SDK 等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有 API 服务。

API Inspector

用户可通过 API Inspector 查看控制台每一步操作关联的 API 调用情况,并自动生成各语言版本的 API 代码,也可前往 API Explorer 进行在线调试。

SDK

云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

命令行工具

6. 错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

错误码 描述
FailedOperation.ErrorDownFile 下载音频文件失败。
FailedOperation.ErrorRecognize 识别失败。
FailedOperation.NoSuchTask 错误的TaskId。
FailedOperation.ServiceIsolate 账号因为欠费停止服务,请在腾讯云账户充值。
FailedOperation.UserHasNoFreeAmount 账号本月免费额度已用完。
FailedOperation.UserNotRegistered 服务未开通,请在腾讯云官网语音识别控制台开通服务。
InternalError.ErrorDownFile 下载音频文件失败。
InternalError.FailAccessDatabase 访问数据库失败。
InternalError.FailAccessRedis 访问Redis失败。
InvalidParameter 参数错误。
InvalidParameterValue 参数取值错误。
MissingParameter 缺少参数错误。
UnknownParameter 未知参数错误。
目录