我正在做一个项目,在这个项目中我必须将Pocketsphinx的语音功能集成到android应用程序中。事实上,我必须集成Pocketpshinx提供的音素识别功能,它应该能够识别法语中的音素,例如,语音识别器应该能够识别音节(如"de“、"re”、"se“等)、辅音(如"m”、"f“、"g”等)、双辅音(如"kl“、"ks”、"gr“等)和元音(如"a”、"o“、"e”等)。现在,我已经集成了Pocketsphinx来识别上面提到的音素,但我得到了非常糟糕的结果。例如,当我发音"o“时,识别的结果有时是:"SIL ff ei”(即使我根本没有发音字母"f“和"e”),或者在开头出现了其他没有发音的东西。出现在开头的字母并不总是相同的(有时我会得到"ll","uu“等)。但有时,我发音的字母会出现在开头(例如,对于"a",我会得到"SIL aa“),但这种情况很少发生。那么,你们能帮助我,让我知道什么可能是问题,以及解决这个问题的任何建议吗?我是否需要创建一个语言模型和一个只包含我感兴趣的字母的字典(因为字母的数量是固定的)?或者,也许我需要对声学模型进行自适应,或者训练声学模型?
非常感谢您的提前!
发布于 2016-07-27 08:21:15
在您的模型中找到feat.params,并根据您的选择更改-cmuinit的值,同时,将"-kws_threshold"的值更改为1e-40f,以消除错误警报。
https://stackoverflow.com/questions/36830554
复制相似问题