前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >语音识别内容

语音识别内容

原创
作者头像
算法发
发布2020-07-30 20:32:03
6.6K0
发布2020-07-30 20:32:03
举报

PAAS层

语音识别的技术原理

产品功能

采样率

语种

行业

自服务

效果自调优

VAD静音检测

录音文件识别,一句话识别,在ASR服务端处理。

VAD是减小系统功耗的,实时音频流。建议开启VAD,一分钟之后的结果就没有了。

开了VAD之后,就可以超过60秒,但是还是建议用户开启。

如果是断断续续的。

一般人也不能一口气说60秒。

所有的友商都是这么写的,

这么听是没有问题的,但是不建议这么做,实时的音频采样率。

Q1:会是怎样的一种对应关系呢?

Q2:静音状态会不会收费呢?

接口要求

集成实时语音识别 API 时,需按照以下要求。

内容

说明

支持语言

中文普通话、英文、粤语、韩语

支持行业

通用、金融

音频属性

采样率:16000Hz或8000Hz、采样精度:16bits、声道:单声道

音频格式

wav、pcm、opus、speex、silk、mp3

数据长度

音频流中每个数据包的音频分片建议为200ms,8k采样率对应的音频分片大小为3200字节,16k采样率对应的音频分片大小为6400字节

请求协议

HTTP

请求地址

http://asr.cloud.tencent.com/asr/v1/<appid>?{请求参数}

接口鉴权

签名鉴权机制,详见 签名生成

响应格式

统一采用 JSON 格式

开发语言

任意,只要可以向腾讯云服务发起 HTTP 请求的均可

请求频率限制

50次/秒

音频属性

这里添加声道这个参数:

ChannelNum

Integer

语音声道数。1:单声道;2:双声道(仅支持 8k_zh 引擎模型)。

Q1:录音文件保存成双通道,

A1:但是你传过来的音频,必须是双通道的。是你音频文件生成好的。是一个实时音频流的概念。

Q2:实时语音识别的分片是200毫秒吗?

A2:IOS的SDK. 200ms对应的

3. 输出参数

参数名称

类型

描述

Data

Task

录音文件识别的请求返回结果,包含结果查询需要的TaskId

RequestId

String

唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。

这么一个特点是

能量频谱图,选择频谱显示。

采样是正常的采样。

季友生,云剑飞。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 语音识别的技术原理
  • 产品功能
    • 采样率
      • 语种
        • 行业
          • 自服务
            • 效果自调优
              • VAD静音检测
                • 接口要求
                  • 音频属性
                    • 3. 输出参数
                    相关产品与服务
                    语音识别
                    腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档