前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌AI在没有语言模型的情况下,实现了最高性能的语音识别

谷歌AI在没有语言模型的情况下,实现了最高性能的语音识别

作者头像
AiTechYun
发布2019-05-13 10:39:29
8770
发布2019-05-13 10:39:29
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

作者 | 董灵灵

发布 | ATYUN订阅号

谷歌AI研究人员正在将计算机视觉应用于声波视觉效果,从而在不使用语言模型的情况下实现最先进的语音识别性能。

研究人员表示,SpecAugment方法不需要额外的数据,可以在不适应底层语言模型的情况下使用。

谷歌AI研究人员Daniel S. Park和William Chan表示,“一个意想不到的结果是,即使没有语言模型的帮助,使用SpecAugment器训练的模型也比之前所有的方法表现得更好。虽然我们的网络仍然从添加语言模型中获益,但我们的结果表明了训练网络在没有语言模型帮助下可用于实际目的的可能性。”

SpecAugment部分通过将视觉分析数据增强应用于频谱图,语音的视觉表示来工作。SpecAugment应用于Listen,Attend和Spell网络进行语音识别任务,LibriSpeech960h达到2.6%的单词错误率(WER),它收集了时长约1000小时的英语口语,以及Switchboard300h收集了260小时电话中的英语对话,单词错误率6.8%。

自动语音识别(ASR)系统将语音翻译成文本,用于会话式AI,如家庭智能扬声器中的谷歌智能助手或使用Gboard的电子邮件,或安卓智能手机的短信听写工具。根据普华永道2018年的一项调查显示,降低单词错误率可能是提高会话AI采用率的关键因素。

语言模型和计算能力的进步推动了单词错误率的降低,例如,近年来,使用语音输入比手动输入更快。

End

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档