我想为CMU Sphinx建立一个语言模型,但我的语料库有1000多个单词,所以我不能使用在线工具。如何使用(cmuclmtk中的脚本?)来构建我的语言模型?
发布于 2011-01-25 03:20:14
请阅读教程
http://cmusphinx.sourceforge.net/wiki/tutoriallm
发布于 2011-10-05 10:01:13
这不是一项微不足道的任务。生成语言模型是一项耗费时间和资源的任务。
如果你想要一个好的语言模型,你将需要一个大的或者非常大的文本语料库来训练一个语言模型(考虑几年的华尔街日报文本的数量级)。
“好”的意思是:如果语言模型能够从训练数据推广到新的和以前未见过的输入数据
您应该查看Sphinx和HTK语言模型工具包的文档。
http://cmusphinx.sourceforge.net/wiki/tutoriallm
还要检查这两个线程:
Building openears compatible language model
你可以在更大的语料库的基础上建立一个更通用的语言模型,然后用它来插入你的较小的语言模型。例如,后退语言模型...但这不是一项微不足道的任务。
https://stackoverflow.com/questions/4783359
复制相似问题