我想建立新的声学模型,新字典,新语言模型为"Sinhala Language speech recognition
“僧伽罗语言字符是基于Unicode的。例如,A=අ、I=ඉ、U=උ、KA=ක、BA=බ。我确实通过了面向开发人员的CMUSphinx教程。但这对我没什么帮助。它适用于英语。
语言模型应该是ARPA模型。如何用英语音素映射僧伽罗语单曲,以及如何训练不同声音的语言模型。是否有任何工具可用于生成基于Unicode的语言模型?
发布于 2015-06-25 16:03:16
总的来说,这并不是真正的复杂。首先,你需要把任务分成几个部分:建立语音词典,建立语言模型,建立声学模型。从语音词典开始。
您需要编写一个Python脚本来将unicode输入映射到音译:
රට r a tt a
එකඟයි e k a ng a yi
අවසර දිම a v a s a r a d i m a
基本上,你每写一个对应的音译。这就是您所需要做的,稍后您只需将单词列表输入到脚本中,并获得cmusphinx格式的字典。本部分将在教程中介绍。
http://cmusphinx.sourceforge.net/wiki/tutorialdict
一旦您有了音译工具,您就可以继续使用语言模型。你需要大量的文本来建立语言模型。你可以从维基百科或当地报纸下载短信。然后,您可以使用任何语言模型工具包来创建ARPA模型。它们都支持unicode - SRILM、MITLM、IRSTLM,您可以使用它们中的任何一个。本部分将在教程中介绍。
http://cmusphinx.sourceforge.net/wiki/tutoriallm
第三步是建立声学模型。您需要录制音频或分段现有的录音,并开始培训。本教程还将介绍此部分。
http://cmusphinx.sourceforge.net/wiki/tutorialam
https://stackoverflow.com/questions/31050003
复制相似问题