我试图提高麻雀在嘈杂环境中的识别精度。但是,用户可能在可变环境中使用该应用程序。因此,用噪音训练不是我想做的事。
我的问题是,在把语音信号输入到袖珍狮身人面像之前,减低噪音是否一定会降低识别的准确性?
如果是,则在降噪后需要保留哪些语音特征?目前,我观察到,如果使用降噪,WER从~40%(自由语言)上升到60%。
加一句,在降噪后,讲话听起来确实更好。
Pocketsphinx argfile:
-lm lm_giga_64k_vp_3gram.DMP
-dict lm_giga_64k_vp.sphinx.dic
-hmm voxforge_en_sphinx.cd_cont_5000
这里的想法是演示提高语音识别精度与降噪启用和直观,这是理想的情况下,除非降噪算法是完全混乱的频谱内容的信号。
任何帮助都将不胜感激。
发布于 2014-09-03 11:34:09
目前,我观察到,如果使用降噪,WER从~40%(自由语言)上升到60%。
这些都是非常糟糕的比率,因为:
1)你使用的是过时的模型
2)你使用的是过时的袖珍狮身人面像,没有减少噪音。
外部噪声降低通常会降低语音识别的精度,幸运的是,最新的pocketsphinx有自己的降噪模块,这使得它对噪声具有很强的鲁棒性。你只需要更新一下。要获得最佳效果,您需要:
1)从http://github.com/cmusphinx下载并使用最新的狮身人面像和袖珍狮身人面像
2)下载最新的声音和语言模型:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Acoustic%20Model/en-us.tar.gz/download
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Language%20Model/cmusphinx-5.0-en-us.lm.dmp/download
这样你就可以设定一个合适的基线了。要尝试降低噪音,可以使用命令行配置选项:
-remove_noise yes/no
关于如何降低准确性,包括噪声鲁棒性的进一步建议,您应该更好地提供您想要识别的音频的测试样本。详情见:
poor
https://stackoverflow.com/questions/25641154
复制相似问题