大家好,又见面了,我是你们的朋友全栈君。
你知道苹果手机有几个麦克风吗?
·
语音交互(VUI)是指人与人/设备通过自然语音进行信息传递的过程。
语音交互的优势:
语音交互的劣势
人机语音交互发展
总结起来就是:家里、车里、路上。
现实中的语音交互系统,无一例外的会受到各种环境不利因素的影响,极大影响了交互成功率和用户体验。
痛点:人和机器都听不清
一个成功的语音交互产品,意味着对语音交互的场合和使用模式无约束。
前端语音信号处理的意义:
总结:语音信号处理的目标,是为了让人和机器更容易听清语音,让语音交互更加自然和无约束。
针对不同的干扰因素,采用不同的信号处理算法 去回声——去混响——盲源分离——波束赋形——语音降噪——自动增益控制
旨在解决“鸡尾酒会”问题
用于多通道语音增强、信号分离、去混响、声源定位
消除或抑制环境噪声,增强语音信号
自动调整信号的动态范围
常用的两种方法
信号处理与深度学习相结合的方案
处理依据——“规则+学习”
既保留了声音传播的物理规律和信号本身的时域、频域、空域特性,又引入了先验数据统计建模的方法。
优化准则:MSE准则
基于深度学习的前后端联合优化方案
处理依据——“端到端联合建模”
将前端信号处理与后端ASR声学模型联合建模,用一套深度学习模型完成语音增强和语音识别任务。
优化准则:识别准确率
深蓝学院《语音信号处理》课件
奥本海姆,《信号与系统》,电子工业出版社
奥本海姆,《离散时间信号处理》(Discrete Time Signal Processing, Third Edition)
赵力,《语音信号处理》,机械工业出版社
郑君里,《信号与系统》,电子工业出版社,高等教育本科国家级规范教材
韩纪庆,《语音信号处理》,机械工业出版社
张贤达,《现代信号处理》,清华大学出版社
张贤达,《矩阵分析与应用》,清华大学出版社
VanTrees,检测、估计和调制理论(IV)《Optimumarrayprocessing》
Signals and Systems: an Introduction to Analog and Digital Signal Processing. 1987 Lecture. Alan V. Oppenheim
Python for Signal Processing:《Python for Signal Processing: Featuring IPythonNotebooks》对应源码,包含信号处理12大类(采样定理、傅里叶变换、滤波器等)、随机过程15大类(高斯马尔科夫、最大似然等)
Speex:A Free Codec For Free Speech。专门语音压缩而设计的,包含超过9种算法:AEC、NS、VAD等,不过现在被Opus替代。
Google WebRTC:一个免费的开放式项目,通过简单的API为浏览器和移动应用程序提供实时通信(RTC)功能。
VOICEBOX: Speech Processing Toolbox for MATLAB:语音处理工具箱,由MATLAB程序组成。超过100个函数,包含语音增强、ASR等在内。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/143728.html原文链接:https://javaforall.cn