图书推荐｜《语音识别服务实战》（文末赠书）

文章来源：企鹅号 - 语音之家

在语音识别系统的现实使用环境中，噪声、干扰和混响几乎是无处不在的。在麦克采集到的音频信号中，这些不利因素和目标语音信号叠加在一起，会带来识别率的下降，而在远场环境中更是如此。如图3-1所示，远场环境中可能同时存在反射声、扬声器回声、干扰用户的声音、方向性噪声和弥散噪声等，这对语音识别系统的准确性提出了很大的挑战。语音前端算法是一组对语音数据进行预处理的算法，其目标是从数据中去除这些不利因素，并尽可能恢复原始的纯净语音，从而提升识别率。

传统的语音前端算法主要是VAD、降噪和AEC。图3-2是一个简单的单通道语音前端处理框架的示意图（根据实际系统的功能和场景，使用的模块和处理顺序可能有所不同）。

其中，VAD的一个作用是检测带噪声的音频数据中是否有语音。尽管很简单，但是VAD算法在语音交互系统中有着非常重要的作用。在带有语音唤醒功能的Always-On系统中，如智能手机上的语音助手，VAD通常被作为一级算法。该算法一般会一直在后台运行，并在检测到语音时，激活后面级别的语音唤醒或声纹识别算法。由于移动设备对功耗有要求，因此在此场景下通常对VAD算法的复杂度有较大限制。VAD算法的另外一个作用是在处理整段长语音的语音识别时，可对整段数据进行检测并找出其中每一句话的起始点和终止点，并以此为依据对数据进行分割。此外，VAD算法还是很多其他语音前端算法的基础。例如，在降噪或AEC算法中，可根据VAD的结果来使用不同的处理策略。

AEC算法的作用是消除本地麦克风采集到的从扬声器中播放出来的远端音频信号。一个典型的例子是，在智能音箱中，有些场景需要在播放音乐或语音的同时识别用户指令。由于此时麦克风采集到的声音是目标语音和扬声器声音（这里被称为回声）的混合，因此需要AEC模块来消除回声并恢复纯净的目标语音。为了达到较好的消除效果，AEC模块需要将扬声器播放的音频信号（也被称为回采信号或远端参考信号）作为输入。

降噪又被称为语音增强，主要作用是从语音信号中去除噪声，并尽可能恢复原始的纯净语音。实际环境中的噪声可以分为平稳噪声和非平稳噪声两类。平稳噪声是指统计特性比较稳定或随着时间变化只有缓慢变化的噪声，如风扇声、汽车发动机噪声等；而非平稳噪声是指统计特性快速变化的噪声，现实环境中各种突发的噪声大多属于此类。由于非平稳噪声对语音识别的性能有较大影响，因此对非平稳噪声的消除效果是评价一个降噪算法最关键的部分。

近几年，随着算法和硬件的不断发展，智能音箱和车载智能语音交互系统已经越来越普及，人们对远场语音交互的需求也越来越大。在远场语音交互场景中，随着用户与设备之间距离的增加，噪声、干扰和混响等因素对语音质量的影响也被放大，并带来语音识别率的下降。传统的单通道语音前端系统在远场应用中并不能很好地处理远场语音识别的问题。这是因为单通道音频没有空间指向性，在远场环境中无法有效地在抑制干扰和噪声的同时保留目标信号。而麦克风阵列通过规则排列的麦克风来采集多通道数据，并通过波束形成算法和空间指向性，可以很好地对目标信号进行定向增强，这不仅能抑制弥散噪声，还能抑制方向性的噪声和干扰。麦克风阵列和相应的算法在远场语音交互的普及中发挥了重要作用。在当前商用的远场语音交互场景中，麦克风阵列的使用已经成为标配。

图3-3是一个典型的使用麦克风阵列的多通道语音前端系统，其中除了AEC、VAD、降噪等模块，还包含波束形成、声源定位、去混响、增益控制等模块（在实际的应用与场景中，模块的组合方式可能会有所不同）。

发表于: 2022-03-152022-03-15 18:31:18
原文链接：https://kuaibao.qq.com/s/20220315A09U1V00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

图书推荐｜《语音识别服务实战》（文末赠书）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐