这场离线语音battle战,百度输入法赢得很有节奏

你是不是也经常因为进入电梯没网,导致刚刚用语音输入到一半的工作安排被迫搁置?或者灵感来了急忙打开手机,洋洋洒洒说了一大段却因为没有网一个字都没存下来?当我们在享受“语音输入”带来的便捷时,也常常受制于网络环境而失去了些许便利性。然而2019年百度输入法“AI·新输入 全感官输入2.0”发布会上,一段“离线语音能力的现场演示”却令人眼前一亮。

离线语音能力介绍

会上,百度中文输入法负责人蔡玉婷介绍指出:“从2016年至今的爆发增长期,百度输入法日均请求量增长了8倍。预计未来2年,语音输入仍会保持高速增长态势,日均请求量能在现有基础上再增长2至3倍,达到巅峰。”此外,她还特别指出,“语音用户规模和使用场景不断扩大,让我们更有信心推出一款全语音交互的输入法。”

而语音识别准确率,则是影响产品体验的核心因素。此次发布会上,百度输入法的“离线语音能力”就是关注到用户在诸如坐地铁、乘电梯、经过隧道或者在人流密集的环境中,面对无网络、网络信号差所导致的“语音输入中断”而推出的功能。

百度语音技术部负责人高亮介绍了该功能,他指出百度语音技术团队通过不懈努力,“优化了输入法上嵌入式识别的Deep Peak 2模型”后,大幅提升了“离线语音识别准确率”。同时,他还在大会现场进行了“离线语音能力”的测试。他用3台相同配置的手机,分别安装了百度输入法及其他两个输入法产品。在统一关闭网络连接后,用同样的语句对3款输入法,进行“离线语音识别能力”测试。从测试效果来看,目前只有百度输入法可以做到在没有网络的情况下进行精准的语音识别,其他两款输入法均出现一些错字或者遗漏现象。

输入法离线语音能力评测

据了解,“深度尖峰技术Deep Peak 2模型”全称为基于 LSTM 和 CTC 的上下文无关音素组合建模,该技术将高频出现的音素联合在一起,形成一个音素组合体,然后将这个音素组合体看作一个基本建模单元。与以往使用的上下文相关建模方式相比,Deep Peak 2模型能够充分发挥神经网络模型的参数优势,对多种说话方式的稳定性更强、准确度更高;同时能够带来更快的解码速度,提升语音识别的整体效率。此次优化了输入法上嵌入式识别的Deep Peak 2系统,不仅实现了离线语音输入,并且使得百度输入法“离线语音“输入准确率高于行业平均水平35%。

人工智能辅助人类工作的的第一步,是要在不同环境中听得懂“人话”。“离线语音”目前已在“百度输入法 AI探索版””和“百度输入法8.5版”中同步上线。当AI成功将输入法这一传统工具转型成为全新的“人机交互模式”时,每一个普通用户都能感受到AI带来的巨大能量,都将体验到前所未有的全感官输入。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190117A0GS4Q00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券