每周科技热词｜语音识别

文章来源：企鹅号 - 每日科技热点谈一谈

语音识别

2021/12/10

“

语音识别是一种电子信息处理功能，可称为“机器听觉”，就是用软件去听。语音识别软件通常包括录音、分析音频和数据库等部分。利用语音识别也可以完成很多任务，最常见的是录入文字和人机交谈，还有依靠声纹识别的身份认证。

录音时，麦克风等设备是机器的“耳朵”，它把声音转成电信号并数字化。声音的本质是连续的空气震动，所以录到的音频都是连续的。为帮助软件判断开始和结束，如果是文字录入，一般要求录制者说完一段话后暂停；如果是人机对话，也会有个停顿和等待的过程，以便分析软件完成识别和转换。计算能力强大的设备，其识别过程很快，这种暂停时间可以非常短，和人直接交谈差不多。不同于录制音乐的软件，为了减少环境噪音干扰，语音采集时会突出人声，同时进行降噪过滤，而不是尽量无损记录所有音频。

语音识别最重要的部分也是分析软件，它就像人脑的听觉中枢。分析语音同样采用“模板对比法”，把录到的音频和数据库中存储的模板进行对比，就能认出录制者说了什么。规范化的语音，如播音员水平的普通话很容易被识别，只要搜索标准音频库就能找到，实际上这些标准音频正是由这类专业人员提供的。如果录制者说话速度稍快或稍慢，软件可以自动调整速度来完成对比，但太快或太慢会造成声音畸变，那就听不出来了。需要注意的是，考虑到汉语有大量的同音字，所以汉语语音识别软件一般按词而不是字进行对比，以免遇到同音字时无法选择。有些软件还会把常用词组和短句的音频也加入模板，进一步提高识别的准确率。另一方面，为减少运算量，在有些“指令式”人机交谈软件中只存储少数关键字的音频，符合关键字的语音会产生指定效果，其他则被忽略，电话费自动查询软件就是这样。

插图：苏盼盼

语音识别软件也有“记忆中枢”，并且一般比图像识别的数据库要求高，因为不同人的发音习惯差别很大，“学习”能力对语音识别软件特别重要。在听到不够规范的语音时，软件在标准音频库里找不到正确的字，就会去搜索其他音频库。这时软件就开始“学习”，只要识别成功，结果将被记录下来，下次再遇到相同发音时就能较快完成识别，这也被称为软件的训练过程。语音识别软件的学习主要依赖反馈，即使用者对识别结果的确认和修改，这能帮助它形成有针对性的模板和快速查询方法。随着反馈不断累积，软件的“智力”越来越高，不仅能听写大部分口语，连文字交流中难以体现的语气也能识别，并用“表情符号”等方式表达出来。

本文作者：李晓航，中科院物理所博士，从事超导行业。

END

编辑：Ser'lu

声明：除原创内容特别说明之处，推送稿件文字、图片及视频均来自网络及各大主流媒体。版权归原作者所有。如认为内容侵权，请联系我们删除。

在看点这里

发表于: 2021-12-102021-12-10 18:32:00
原文链接：https://kuaibao.qq.com/s/20211210A0AETL00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

每周科技热词｜语音识别

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐