前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于kenlm工具训练统计语言模型

关于kenlm工具训练统计语言模型

作者头像
学到老
发布2019-01-25 10:47:10
2.6K0
发布2019-01-25 10:47:10
举报

概述

统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。

特征

“语言行业最大的改进是增加了新的语言模型KenLM,它快速,节省内存,最重要的是,允许在开源许可下使用多核处理器。”

  • 比SRILM和IRSTLM 更快,更低的内存。
  • 使用用户指定的RAM 进行磁盘估计。
  • 用于时空权衡的两种数据结构。
  • mmap的二进制格式。或直接加载ARPA文件。
  • 如果安装了相应的库,它还可以读取使用gzip,bzip2或xz压缩的文本和ARPA文件。
  • 线程安全的。
  • 更多假设重组的机会。如果模型退避,则State仅存储匹配的单词。FullScore函数还返回模型匹配的n-gram长度。
  • 查询几乎没有依赖:C ++编译器和POSIX系统调用。过滤和估算是多线程的,因此它们依赖于Boost。
  • 支持任何大于一的订单的模型(订单>= 7时需要重新编译)。 彻底的错误处理。例如,ARPA解析错误包括消息,有问题的字符串,字节偏移量和文件名。与IRSTLM比较。
  • 加载进度条。
  • 试验。这些取决于Boost。 查询支持包含令牌的n-gram; 这些出现在用限制词汇构建的模型中。
  • 许可许可证意味着您可以分发它而不像SRILM。在下载之前没有要填写的表单。

相关安装操作参照:https://cloud.tencent.com/developer/article/1387643

n元分词法参见:https://cloud.tencent.com/developer/article/1390721

参考资料:

论文-PPT:http://kheafield.com/code/kenlm/

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年11月19日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
  • 特征
  • 参考资料:
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档