有奖捉虫:办公协同&微信生态&物联网文档专题 HOT

不同使用场景对应的是语音识别哪种服务?

实时语音识别适用于有实时性要求的场景,例如语音输入法、语音机器人、会议现场记录等场景。
录音文件识别适用于语音时间较长、实时性要求低的场景,例如客服质检、视频字幕生成等场景。
录音文件识别极速版适用于语音时间较长、实时性有极高要求的场景,例如视频添加字幕、准实时质检等场景。
一句话识别适用于对60秒之内的短音频文件进行识别的场景,例如语音短信、语音搜索等场景。
语音流异步识别适用于语音流准实时识别,异步返回文字结果的场景,例如直播审核、音视频审核等场景。

录音两个人说话,且录音存储成单声道,识别结果是否把两人的对话分离开?

8K、16K采样率普通话录音文件识别支持单通道双人对话的说话人分离。

支持远场和离在线的语音识别吗?

支持离在线语音识别,详情可参见 离线在 SDK 文档

语音识别支持中英文混合场景和地方方言吗?

实时语音识别一句话识别录音文件识别录音文件识别极速版语音流异步识别 支持中英文混合识别(使用中文引擎的时候,在少量英文的情况下可以支持中英文混合识别,大量英文可能出现识别率降低的情况),且支持带口音的中文普通话语音识别。
实时语音识别一句话识别录音文件识别录音文件识别极速版 支持上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话等23种方言的识别。

语音识别支持的输入音频时长是多少?

一句话识别每次调用支持60秒之内的音频。
录音文件识别每次调用支持五小时之内的音频。
实时语音音频流中每个数据包的音频分片为200ms。

语音识别支持什么样的音频属性?

接口
音频属性
录音文件识别
采样率(sample rate):16kHz、8kHz 位深(bit depth):16bit
声道(channels)单声道、双声道
一句话识别
采样率(sample rate):16kHz、8kHz 位深(bit depth):16bit 声道(channels):单声道
录音文件极速版
采样率(sample rate):16kHz、8kHz 位深(bit depth):16bit 声道(channels):单声道、双声道
实时语音识别
采样率(sample rate):16kHz、8kHz 位深(bit depth):16bit 声道(channels):单声道
说话人验证
采样率(sample rate):16kHz 位深(bit depth):16bit 声道(channels):单声道
虚拟号真人判定
采样率(sample rate):8kHz 位深(bit depth):16bit 声道(channels):单声道

一句话识别和录音文件识别的音频数据支持哪种传输方法和格式?

采用 HTTP 协议传输,POST 方法,音频数据传输如下两种方式:
1. 音频数据使用 base64 编码后,随 HTTP body 传输。
2. 若采用 url 下载,body 中的数据可不填,在请求参数内填入音频 url。

实时语音识别中,如果一段音频包含多句话该如何提高准确率?

建议开启 VAD 功能,VAD(Voice Activity Detection)是指对音频进行分段的技术,如果一段音频中包含了多句话,VAD 可以检测多句话之间的停顿进行自动断句,从而达到更高的识别准确度。

语音识别是否支持同步的结果调用形式?

实时语音识别支持同步返回识别结果。
一句话识别支持快速返回识别结果。
录音文件识别支持回调和轮询两种异步调用形式。

语音识别可以将普通话的录音文件转为英文文本吗?

不能。语音识别目前无法将普通话的录音文件转为英文文本。

语音识别是否支持评测?

不支持。

语音识别识别出来的文字能否复制?

语音识别识别出来的文字无法复制,复制功能需要接入之后自己前端开发实现。

购买了录音文件识别资源包,怎么导入文件进行识别?

可进入 语音识别控制台 功能体验页面导入文件,也可调用 API 和接入 SDK 使用。

录音转写功能都支持哪些上传文件格式?

录音转写功能支持 wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac 格式。

实时语音识别能否设置识别的最长时间?

不能设置识别最长时间。如果不需要,直接断开即可。

语音识别是否支持 MRCP 协议?

MRCP 暂未对外开放,如有需要,可通过 售前咨询

有没有 SaaS 化的可以直接提供给客户用?

语音识别支持私有化部署,需要商务对接跟进,可通过 售前咨询

音频大于5小时或者文件超过1GB如何切割?

可以使用 ffmpeg 命令来切割音频/视频,例如音频时长为3小时,切割为三个1小时的音频,可使用如下命令:
ffmpeg -ss 00:00:00 -i input.wav -c copy -t 3600 output_1.wav

ffmpeg -ss 01:00:00 -i input.wav -c copy -t 3600 output_2.wav

ffmpeg -ss 02:00:00 -i input.wav -c copy -t 3600 output_3.wav
其中-ss 的参数为切割开始时间,-i 为切割文件名,-t 为切割音频秒数。

语音识别英文录音文件如何转换成中文?

语音识别功能是把音频内容转换成文本,不支持中英文翻译。

实时语音识别后的文字如何保存?

实时语音识别实时返回文字,您可以自行在本地进行保存。

语音识别支持什么语言?

实时语音识别支持中文普通话、英文、韩语、粤语、日语、泰语和上海话等方言,详情请参见 实时语音识别(websocket)。 一句话识别和录音文件识别支持中文普通话、英文、粤语、日语和上海话等方言的识别,详情请参见 录音文件识别一句话识别

语音识别能否保存语音文件?

语音识别上传的音视频文件是不会保存的,识别成功后存储的是识别后的文本文件,文本文件会在服务器上保存7天。保存语音文件会影响识别结果,目前结果是直接返回的,您可以在业务侧自行实现语音文件的保存,您可将语音文件保存在本地服务器或者数据库中。

语音识别的录音文件识别接口是否支持过滤语气词?

录音文件识别支持过滤语气词。具体使用方法请参见 录音文件识别请求

语音识别中录音文件识别接口是否支持过滤标点符号?

录音文件识别接口是支持过滤标点符号的。具体使用方法请参见 录音文件识别请求

语音识别准确率是多少?

腾讯云语音机器人系统在国家电子计算机质量监督检验中心出具的测试报告中,对于数据采样率16k、16bit、原始不压缩的 wav 或 pcm 格式的音频数据,中文语音识别的字准率为97.40%(结果保留两位小数),英文(美式)语音识别的字准率不低于88.00%(结果保留两位小数)。但请您知悉,前述字准率仅为第三方实验测试数据,仅供您参考,不作为腾讯云语音识别服务准确性的承诺保证。

语音识别的录音文件识别接口是否支持阿拉伯数字智能转换?

录音文件识别是支持阿拉伯数字智能转换的。具体使用方法请参见 录音文件识别请求

问题没有解决,到 AI Studio 技术答疑专题 看看?