简介

最近更新时间:2019-06-21 20:11:30

语音识别 API 升级到 3.0 版本。全新的 API 接口文档更加规范和全面,统一的参数风格和公共错误码,统一的 SDK/CLI 版本与 API 文档严格一致,给您带来简单快捷的使用体验。支持全地域就近接入让您更快连接腾讯云产品。

产品介绍

语音识别(Automatic Speech Recognition,ASR)为开发者提供语音转文字服务的最佳体验,开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求,具备识别准确率高、接入便捷、性能稳定等特点。

产品功能

实时语音识别 对实时音频流进行识别,达到“边说边出文字”的效果,可应用于语音输入、电话机器人等实时音频流场景

一句话识别 对60秒之内的短音频文件进行识别,达到快速准确识别较短语音的效果,可应用于语音消息转写等场景;

录音文件识别 对录音文件进行识别,达到识别较长的非实时语音的效果,可用于字幕生成、录音资料转写等场景

产品优势

海量数据积累 立足于腾讯庞大的社交数据平台,积累了数十万小时的语音标注数据,拥有丰富多样的语料库,为高识别率奠定数据基础。

算法业界领先 基于多种序列神经网络结构(LSTM、Attention Model、DeepCNN),采用 Multitask 训练方法,结合T/S方式,在通用以及垂直领域有业内领先的识别精度。

支持多平台设备 提供 REST API 和 SDK,支持智能硬件、移动应用、网站、桌面客户端和物联网等多种设备终端。

支持语种丰富 现阶段支持中文语音识别和英文语音识别,后续将陆续开放其他语种或方言的识别能力,包括粤语、维语、藏语、韩语等。

噪声环境识别佳 语音识别模型鲁棒性佳,识别精度高,抗噪声的干扰能力强,能够识别来自嘈杂环境的音频信息,不需要客户进行降噪处理。

海量内外部业务验证 经过微信、腾讯视频、王者荣耀等内部业务充分验证,也在大量互联网、金融、教育等领域的外部客户业务场景成功落地,日服务亿级用户,性能稳定。

应用场景

语音输入法 智能语音输入,由实时语音识别实现,为用户节省输入时间、提升输入体验。

语音消息转写 将用户的语音信息转成文字信息,由一句话识别服务实现,提升用户阅读效率。

字幕生成 将直播和录播视频中的语音转换为文字,由录音文件识别服务实现,轻松便捷地生成字幕文件。

会议纪要 将会议、庭审、采访等场景的音频信息转换为文字,由实时语音识别服务实现,降低人工记录成本、提升效率。

电话质检 将坐席通话转成文字,由实语音识别服务或录音文件识别服务实现,全面覆盖质检内容、提升质检效率