功能相关

最近更新时间:2019-08-09 17:34:54

不同使用场景对应的是语音识别哪种服务?

实时语音识别适用于有一定实时性要求的场景,例如语音输入、语音机器人、会议现场记录等场景;
一句话识别适用于对60秒之内的短音频文件进行识别的场景,例如语音短信、语音搜索等场景;
录音文件识别适用于语音时间较长、实时性要求低的场景,例如客服质检、视频字幕生成等场景。

录音两个人说话,且录音存储成单声道,识别结果是否把两人的对话分离开?

8K采样率普通话录音文件识别支持单通道双人对话的说话人分离。

支持远场的语音识别吗?

录音文件识别、一句话识别和实时语音识别不支持远场语音识别。

语音识别支持中英文混合场景和地方方言吗?

普通话引擎仅支持单词级别的中英文混合识别。
实时语音识别和录音文件识别支持中文普通话、英文和带有一定方言口音的中文普通话,后续将会支持粤语等方言;
一句话识别支持中文普通话、带有一定方言口音的中文普通话,后续将会支持英文、粤语等语言或方言。

语音识别如何接入?

语音识别目前支持 API 和 SDK 接入,推荐 SDK 接入,详情参见语音识别入门。

语音识别的支持的输入音频时长是多少?

一句话识别每次调用支持60S之内的音频;录音文件识别每次调用支持一小时之内的音频;实时语音每个数据包大小不超过200KB。

语音识别支持的什么样的音频属性?

语音识别服务的对于音频属性的详细规定请参见语音识别服务详细信息页。

一句话和录音文件识别的音频数据支持哪种传输方法和格式?

采用 HTTP 协议传输,post 方法,音频数据传输如下两种方式:1 音频数据使用base64编码后,随 HTTP body 传输;2 若采用 url 下载,body 中的数据可不填,在请求参数内填入音频 url。

语音识别怎么进行功能体验?

可以通过微信搜索“腾讯云 AI 语音”小程序,选择语音识别进行体验;语音控制台将上线功能体验模块,用户可以通过上传文件或者 URL 进行体验。