专栏首页字根中文校对软件计算所汉语词法分析系统ICTCLAS 字典格式解析

计算所汉语词法分析系统ICTCLAS 字典格式解析

计算所汉语词法分析系统ICTCLAS 字典格式解析

这段时间小叮咚分词模块基本上没有什么大更新了,不是不想更新,而是感觉好像碰到了天花板,不知道该如何进一步拓展分词的功能了。当然分词不是目的,只是为了让小叮咚理解自然语言的一步必须的中间环节。我对小叮咚的定位是一个智能知识问答系统。这样让小叮咚理解用户输入的内容是最基础也最关键的一步。我们学习一门语言,首先要了解句子的构成,句子的成份,主、谓、宾、定、状、补等等。让机器理解人的语言,也应该采取大致的步骤。

    分词很显然是第一步。在我看来分词有两个层次:         1、把一句话中的词语按照其所代表的含义分开;(搜索引擎的分词到这一步基本就可以了)         2、对第一个环节分词结果加上词性标注;(动词,名词,等等)

    小叮咚的分词程序现在只是基本完成了上面的第一个部分。     要做完第2部分非常困难,首先需要一个分词词性词库,其次需要一个好的算法来标注词性。

    这大概就是小叮咚的分词程序一直无法提高的原因吧。     于是就准备参考国内有名的 计算所汉语词法分析系统ICTCLAS, 先看看人家是如何实现的。

汉语词法分词系统 ICTCLAS 是中国科学院的两位研究员开发的一套广受专家好评的汉语分词系统。该系统的功能有:中文分词;词性标注;未登录词识别。详细信息可以看这里。由于对方提供了源代码,所以分析ICTCLAS是个很好的起点。(现在ICTCLAS提供了 windows 和 linux 下的动态链接库,还没有 java 和 C# 版本的,我想如果顺利的话这个系列的文章写完,就应该可以实现C#和java版本的了,呵呵)     当然在好的东西也有缺点,在我看来ICTCLAS最大的缺点是没有文档。就像JBOSS,代码虽然免费,可是没有文档,很多人只好乖乖的交服务费或者购买文档了。这也算是一种盈利模式吧,给作者的劳动一些补偿。

    分词的两个重点分别是一个好的词库和一套好的分词算法。ICTCLAS 无疑在这两方面都是很出色的。     本篇重点分析一下ICTCLAS所采用的词库的格式。     ICTCLAS 使用的词库是以dct结尾的文件。     我实现的解析ictclas4j。 可直接导入eclipse运行。     词库:这里有一个例子。     

    今天就先写到这里吧,没有写过文件格式方面的文章,不知道该怎么描述了...。         田春峰     20041223

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )

        这个分词程序是文舫工作室贡献出来的。     强烈推荐看看文舫工作室的开发日志,他们的激情可以鼓励很多人......         自从小叮咚...

    田春峰-JCJC错别字检测
  • 一种快速的未登陆词识别方法(原理和实现)

        最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放.     但现在似乎还没有针对未登...

    田春峰-JCJC错别字检测
  • Google的Sawzall,Yahoo的Pig和微软的Dryad

    Greg 最近写了篇介绍Google,Yahoo,微软三大巨头公司分布式架构的Blog。这就是:Google的Sawzall,Yahoo的Pig 猪和微软...

    田春峰-JCJC错别字检测
  • 使用PostgreSQL进行中文全文检索

    前言 PostgreSQL 被称为是“最高级的开源数据库”,它的数据类型非常丰富,用它来解决一些比较偏门的需求非常适合。 前些天将 POI 点关键词查询的功能迁...

    枕边书
  • 使用PostgreSQL进行中文全文检索 转

    PostgreSQL 被称为是“最高级的开源数据库”,它的数据类型非常丰富,用它来解决一些比较偏门的需求非常适合。

    双面人
  • JavaScript 技术篇-js检测原生对象类型实例演示,js的3种对象类型

    判断依据一: myArray.constructor 可以返回对象的内部构造函数,除了 Date 和 Array 对象外,其余的都是 Object 对象,但是...

    小蓝枣
  • java 位运算与实战

    在二进制里面总共有32位,0-31,第31位是表示当前数值的正负,当时0的时候表示这个数值是正数,当是1表示这个数值是负数。

    开发架构二三事
  • 数据的表示和运算

    这期本来是想写hashMap的,但是里面哈希和扩容之类的,很多都是位运算,不太熟悉的同学看着会很难受,所以先补充一些计算机组成的知识。

    三哥
  • LeetCode 图解 | 42. 接雨水

    今天的题目来源于 LeetCode 中第 42 题:接雨水,hard 级别,目前通过率 50.8% 。

    五分钟学算法
  • HDU 1030 纯数学 找规律

    Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Ot...

    csxiaoyao

扫码关注云+社区

领取腾讯云代金券