功能相关

最近更新时间:2020-08-24 11:03:24

不同使用场景对应的是语音识别哪种服务?

实时语音识别适用于有实时性要求的场景,例如语音输入、语音机器人、会议现场记录等场景;
一句话识别适用于对60秒之内的短音频文件进行识别的场景,例如语音短信、语音搜索等场景;
录音文件识别适用于语音时间较长、实时性要求低的场景,例如客服质检、视频字幕生成等场景。

录音两个人说话,且录音存储成单声道,识别结果是否把两人的对话分离开?

8K采样率普通话录音文件识别支持单通道双人对话的说话人分离。

支持远场和离线的语音识别吗?

录音文件识别、一句话识别和实时语音识别暂时不支持远场和离线的语音识别。

语音识别支持中英文混合场景和地方方言吗?

普通话引擎仅支持单词级别的中英文混合识别;
实时语音识别支持中文普通话、英文、粤语、韩语、日语和上海话方言的识别;
一句话识别和录音文件识别支持中文普通话、英文、粤语、日语和上海话方言的识别。

语音识别的支持的输入音频时长是多少?

一句话识别每次调用支持60秒之内的音频;录音文件识别每次调用支持五小时之内的音频;实时语音音频流中每个数据包的音频分片为200ms。

语音识别支持的什么样的音频属性?

语音识别服务的对于音频属性的详细规定请参见 语音识别服务详细信息页

一句话和录音文件识别的音频数据支持哪种传输方法和格式?

采用 HTTP 协议传输,POST 方法,音频数据传输如下两种方式:1 音频数据使用 base64 编码后,随 HTTP body 传输;2 若采用 url 下载,body 中的数据可不填,在请求参数内填入音频 url。

实时语音识别中,如果一段音频包含多句话该如何提高准确率?

建议开启 VAD 功能,VAD(Voice Activity Detection)是指对音频进行分段的技术,如果一段音频中包含了多句话,VAD 可以检测多句话之间的停顿进行自动断句,从而达到更高的识别准确度。

语音识别是否支持同步的结果调用形式?

实时语音识别支持同步返回识别结果;
一句话识别支持快速返回识别结果;
录音文件识别支持回调和轮询两种异步调用形式。