专栏首页hadoop学习笔记自然语言处理工具HanLP-基于层叠HMM地名识别
原创

自然语言处理工具HanLP-基于层叠HMM地名识别

本篇接上一篇内容《HanLP-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。

首先说一下上一篇介绍的人名识别效果对比:

1. 只有Jieba识别出的人名

准确率极低,基本为地名或复杂地名组成部分或复杂机构名组成部分。举例如下:

[1] 战乱的阿富汗地区,qiang zhi可随意买卖,AK47价格约500人民币

“阿富汗”被识别为人名。

[2] 安庆到桂林自驾游如何规划?

“桂林”被识别为人名。

[3] 2018天津市和平分局招聘社区戒毒、社区康复工作人员成绩查询入口

“康复”被识别为人名。

2. 只有HanLP识别出的人名

除了特别常用姓氏的名字识别正确,其他的都识别错误。举例如下:

[1] 纳溪区副区长李明带队到“花田酒地”景区检查节前安全工作

“花田酒”被被识别为人名。

[2] 秀英“线上线下”齐发力 助力贫困户“微互动”拓宽农产品销路

“齐发力”被识别为人名。

[3] 紧急通知:秦报融媒粉团祖山一日游日报名费大调整!

“秦报”被识别为人名。

3. HanLP与Jieba都识别出的人名

1. 非常用姓氏识别出的人名基本错误。

[1] 房产高管薪酬大起底 万科郁亮年薪1189.9万仅排第二

[2] 生生不息 南通支云发布汶川地震十周年海报呼吁赛前默哀

[3] 为什么伊郎不能有he wu qi,而美国有he wu qi?

2. 名字本身构成词时基本错误。

[1] 周口一村庄杨絮着火,对付杨絮用啥方法好呢?

[2] 上联: 三国魏蜀吴,如何对下联?

[3] 上联:灯火辉煌万家乐。求下联?

如何解决这些badcase呢,要看你的时间了,如果时间充裕的话,可以调整发射概率文件也就是nr.txt文件。如果时间不充裕的话,比如我现在的情况,那就只保留常用姓氏,以及特别需要关注的人名了。

上一篇的内容先说到这里,介绍本篇的主题”基于层叠隐马的命名实体识别”我这里主要阅读的是这篇文章《基于层叠隐马尔可夫模型的中文命名实体识别》。层叠就是将模型级联起来的意思,因此系统的结构如下图所示:

如图所示,层叠隐马就是训练三个隐马模型,每个模型标注一种实体,三个模型采用级联形式连接。

不同的实体有不同的角色标注,实际就是特征,这些特征需要有语言学的知识,实际上就是你的阅读量,通过你大量阅读总结经验,比如姓氏可以作为名字的一个特征(张、王、李、赵),常用地名的后缀可以作为一个特征(省、市、区、县),机构名表处所的尾字可以作为一个特征(局、处、所、院)。这里地名的角色标注简表如下所示:

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • HanLP分词命名实体提取详解

    分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看...

    IT小白龙
  • 7个优秀的开源中文分词库推荐,实用性强!

    纵观整个开源领域,陆陆续续做中文分词的也有不少,不过目前仍在维护的且质量较高的并不多。下面整理了一些个人认为比较优秀的中文分词库,以供大家参考使用。

    一墨编程学习
  • Hanlp等七种优秀的开源中文分词库推荐

    中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。

    IT小白龙
  • 【分词】从why到how的中文分词详解,从算法原理到开源工具

    分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不...

    zenRRan
  • HanLP-基于HMM-Viterbi的人名识别原理介绍

    Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了。看了 baiziyu 分享...

    IT小白龙
  • 自然语言处理工具python调用hanlp中文实体识别

    Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于han...

    IT小白龙
  • hanlp自然语言处理包的人名识别代码解析

    HanLP发射矩阵词典nr.txt中收录单字姓氏393个。袁义达在《中国的三大姓氏是如何统计出来的》文献中指出:当代中国100个常见姓氏中,集中了全国人口的87...

    IT小白龙
  • hanlp安装和使用

    在https://github.com/hankcs/HanLP/releases中下载data然后覆盖HanLP-1.3.4.zip解压后的data

    用户3492023
  • 比较好的中文分词方案汇总推荐

    中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分...

    IT小白龙

扫码关注云+社区

领取腾讯云代金券