前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >现在的语音识别技术可能存在的问题

现在的语音识别技术可能存在的问题

作者头像
用户6026865
发布2020-11-11 10:15:04
1.5K0
发布2020-11-11 10:15:04
举报

以下内容来自于Sensory网站,作者为Sensory CEO Todd Mozer -

https://www.sensory.com/the-problem-with-speech-recognition/?utm_content=144678137&utm_medium=social&utm_source=linkedin&hss_channel=lcp-391003&cn-reloaded=1

语音识别技术近些年的飞速发展,可以轻松应对各种诸如口音,信噪比(signal to noise ratios)的挑战,但是通过在模型中引入深度学习技术(deep learned approaches to modeling),我们可以获得超过90%的识别率。

当你在语音识别引擎中加入自然语言理解(Natural Language Understanding, NLU)后,可以帮助解决语音混淆问题(speech confusion problems)。比如,当我们询问"what time is it"的时候,系统有可能会把"time",识别成“dime",但是通过静态统计模型(statistical modeling)或NLU技术,系统可以轻松判定用户询问的是时间。

现在语音交互所出现的问题大多数不在语音识别引擎,而在NLU侧。NLU所覆盖的领域(domain)越多,其就越有可能产生领域混淆(domain confusion)。这也是为什么Sensory嵌入式语音识别引擎其性能可以超越(outperform)很多云端语音解决方案的原因。

真正一直以来难以解决的问题,存在于语法(morphology),句法(snytax),或音韵(phonology),或深度学习,或统计分析(statistics),或其他各种各样语音识别相关的问题(various things associated with speech recognition)。

其问题在于,大多数情况下语音识别引擎可以识别到用户的语音和语义,但是却没有办法与设备通信并控制设备。随着语音识别系统变得越来越复杂,我们已经习惯了通过语音与设备交互,但是设备并不总是做出恰当的反应。

VII(亚马逊语音互操作倡议, Amazon Voice Interoperability Initiative),可以通过在不同语音助理平台(across voice assistants)中创建通用协议(common protocals),可以解决部分问题,但却不能解决全部的问题。

这些问题不在于设备是否可以识别和理解我们的语音信息,其是一个设备到系统间通信的系统性问题(systematic issue)。

未来的语音识别系统将可以超越现在的语音主力服务- 所有的前端语音控制设备,将可以通过恰当的通信协议接入后端系统并通信。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SmellLikeAISpirit 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档