前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >浅谈深度学习在语音识别领域的应用

浅谈深度学习在语音识别领域的应用

作者头像
博文视点Broadview
发布2020-06-11 17:08:38
1.4K0
发布2020-06-11 17:08:38
举报

小编说:深度学习最早兴起于图像识别,但是在短短几年时间内,深度学习推广到了机器学习的各个领域。如今,深度学习在很多机器学习领域都有非常出色的表现,本文将向大家简单介绍深度学习在语音识别领域的应用。 本文选自《TensorFlow:实战Google深度学习框架》

深度学习在语音识别领域取得的成绩是突破性的。2009年深度学习的概念被引入语音识别领域,并对该领域产生了巨大的影响。在短短几年时间内,深度学习的方法在TIMIT数据集上将基于传统的混合高斯模型(gaussian mixture model,GMM)的错误率从21.7%降低到了使用深度学习模型的17.9%。如此大的提高幅度很快引起了学术界和工业界的广泛关注。从2010年到2014年间,在语音识别领域的两大学术会议IEEE-ICASSP和Interspeech上,深度学习的文章呈现出逐年递增的趋势。在工业界,包括谷歌、苹果、微软、IBM、百度等在内的国内外大型IT公司提供的语音相关产品,比如谷歌的Google Now、苹果的Siri、微软的Xbox和Skype等,都是基于深度学习算法。

在2009年谷歌启动语音识别应用时,使用的是在学术界已经研究了30年的混合高斯模型。到2012年时,深度学习的语音识别模型已经取代了混合高斯模型,并成功将谷歌语音识别的错误率降低了20%,这个改进幅度超过了过去很多年的总和。微软的研究人员通过大量实验得出,使用深度学习的算法比使用混合高斯模型的算法更能够从海量数据中获益。随着数据量的加大,使用深度学习模型无论在正确率的增长数值上还是在增长比率上都要优于使用混合高斯模型的算法。这样的增长在语音识别的历史上是从未出现过的,而深度学习之所以能完成这样的技术突破,最主要的原因是它可以自动地从海量数据中提取更加复杂且有效的特征,而不是如高斯混合模型中需要人工提取特征。

基于深度学习的语音识别已经被应用到了各个领域,其中最被大家所熟知的应该是苹果公司推出的Siri系统。Siri系统可以根据用户的语音输入完成相应的操作功能,这大大方便了用户的使用。目前,Siri已经支持包括中文在内的20种不同语言。与Siri类似,谷歌也在安卓(Android)系统上推出了谷歌语音搜索(Google Voice Search)。另外一个成功应用语音识别的系统是微软的同声传译系统。在2012年的微软亚洲研究院(Microsoft Research Asia,MSRA)二十一世纪计算大会(21st Century Computing)上,微软高级副总裁Richard Rashid现场演示了微软开发的从英语到汉语的同声传译系统。该演讲受到了非常广泛的关注,在YouTube网站上已经有超过一百万次的播放量。同声传译系统不仅要求计算机能够对输入的语音进行识别,它还要求计算机将识别出来的结果翻译成另外一门语言,并将翻译好的结果通过语音合成的方式输出。在没有深度学习之前,要完成同声传译系统中的任意一个部分都是非常困难的。而随着深度学习的发展,语音识别、机器翻译以及语音合成都实现了巨大的技术突破。如今,微软研发的同声传译系统已经被成功地应用到了Skype网络电话中。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-03-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档