深度学习让语音识别脱胎换骨

目前,语音识别技术已经深入到我们生活的方方面面,比如我们手机上使用的语音输入法、语音助手、语音检索等应用,在智能家居场景中也有大量通过语音识别实现控制功能的智能电视、空调、照明系统等,智能可穿戴设备、智能车载设备也越来越多的出现一些语音交互的功能,这里面的核心技术就是语音识别。而一些传统的行业应用也正在被语音识别技术颠覆,比如医院里使用语音进行电子病历录入,法庭的庭审现场通过语音识别分担书记员的工作,此外还有影视字幕制作、呼叫中心录音质检、听录速记等行业需求都可以用语音识别技术来实现。

事实上,语音识别60多年的发展过程并非一帆风顺。20世纪50年代到70年代,是科学家们走弯路的阶段,全世界的科学家认为必须先让计算机理解自然语言,也就是用电脑模拟人脑的语言逻辑,这20多年的研究成果几乎为零。直到1970年后,统计语言学的出现才使语音识别重获新生,推动这个技术路线转变的关键人物是德里克・贾里尼克。采用统计的方法,IBM将当时的语音识别率提升到了90%,同时语音识别的规模从几百单词上升到几万单词,使得语音识别有了从实验室走向实际应用的可能。20世纪90年代以后,语音识别的系统框架方面没有太大突破,直到近些年大数据与深度学习时代的到来,让语音识别技术有了脱胎换骨的进步。

传统的语音识别系统对语音数据的处理分为多个阶段,首先从语音中提取一些人工设计的特征(如 MFCC),然后通过机器学习算法提取音素(Phoneme),接着将音素串连成单词,最后将单词串联成文本。

深度学习可将传统语音识别系统中的声学模型、词典、语言模型等模块都融为一体,模型变得更加简洁。解决上面的语音识别问题的方法是,使用大量的数据,训练一个端到端(end-to-end)的深度神经网络,输入语音数据,直接输出文本,省去了传统语音识别系统中众多的中间步骤。模型的损失函数采用CTC Loss,只用以一个损失函数作为训练的优化目标,为模型训练带来了极大的便利。

斯坦福大学教授吴恩达曾经预测当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式。归功于深度学习,这4%的准确率的提升使得语音识别从难以实际应用的技术变成有无限的应用潜力的技术。

作者:陈燕丽

版权申明:本文为公众号原创,如需转载,请在公众号后台留言。

图片来源:网络

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181218A19PLB00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励