统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。
“语言行业最大的改进是增加了新的语言模型KenLM,它快速,节省内存,最重要的是,允许在开源许可下使用多核处理器。”
相关安装操作参照:https://cloud.tencent.com/developer/article/1387643
n元分词法参见:https://cloud.tencent.com/developer/article/1390721