Hanlp实战HMM-Viterbi角色标注中国人名识别

这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词结果:[签约/v, 仪式/n, 前/f, ,/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/ul, 参加/v, 签约/v, 的/uj, 企业家/n, 。/w],三个人名“秦光荣”“李纪恒”“仇和”一个不漏。一些比较变态的例子也能从容应对,比如下面:

这是hankcs将自己的分词与ansj作比较得出的结果,由于自己可以随时调整算法,所以主场占了很大便宜。但是第一句绝对没有放水,说实话能识别出“仇和”这么冷僻的名字着实让人惊喜了一下。

开源项目

本文代码已集成到HanLP中开源:https://github.com/hankcs/HanLP

原理

推荐仔细阅读《基于角色标注的中国人名自动识别研究.doc》这篇论文,该论文详细地描述了算法原理和实现。从语料库的整理、标注到最后的模式匹配都讲得清清楚楚。hankcs在这篇论文的基础上做了改进,主要步骤总结如下:

1、对熟语料库自动标注,将原来的标注转化为角色标注。角色标注一共有如下几种:

hankcs在此基础上拓展了一个S,代表句子的开始。

2、统计标签的出现频次,标签的转移矩阵。

3、对粗分结果角色标注,模式匹配。

hankcs对论文中的几个模式串做了拓充,并且采用了AC模式匹配算法。

体会

论文中将三字名称拆分为BCD,实测在2-gram模型下,C很容易被识别为E,导致人名缺一半。

人民日报2014中的人名并不能覆盖所有常用字,所以hankcs去别的地方找了个人名库,拆成BCD或BE补充了进去。

人民日报2014语料库中有很多错误,比如

去/vf 年老/vi 张中秋/nr 去/vf “/w 泡茶/vi ”/w ,/w 送礼/vi 遭到/v 了/ule 拒绝/v ,/w 老张/nz 担心/v 金额/n 不够/a

中秋很明显不是人名的组成部分,这个必须手工剔除。

“中秋安全”会识别出“中 秋安全”来,因为2-gram词典中没有“中秋@安全”这种接续,而有“中@未##人”这种接续。初步的解决方法是手工往2-gram词典里面加一条“中秋@安全”。这反映了这种方法的局限性,另一方面也说明词典的重要性。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | Style2paints:专业的AI漫画线稿自动上色工具

4504
来自专栏量子位

GitHub深度学习开源项目Top200正式公布 | 资源帖

最近,来自埃及的Mahmoud Badry,做了一张GitHub深度学习项目Top 200天梯榜,月更。

971
来自专栏机器学习算法与Python学习

Mask R-CNN官方实现“又”来了!基于PyTorch,训练速度是原来2倍

来自官方的Mask R-CNN实现终于“又”来了!PyTorch官方Twitter今天公布了一个名为Mask R-CNN Benchmark的项目。

1022
来自专栏量子位

Google Pixel 2拍照黑科技:单摄搞定背景虚化+内部潜伏神秘芯片

安妮 夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI ? Google最新亲儿子Google Pixel 2系列一发布,拍照效果的好评就已铺天盖地。...

4134
来自专栏PPV课数据科学社区

企业如何把“想法”变成“算法”自动执行业务流程?

普兰数据智能——业务流程自动执行“企业大脑” 机器人系统整体方案提供商 企业营销生产管理过程受制于人员的专业水平、理念心态诸多你不能控制的因素,导致大量人员低效...

31311
来自专栏AI科技评论

EMNLP 2018 详尽参会见闻

AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,...

2012
来自专栏AI科技评论

资源 | AI Challenger 2018 即将进入决赛,八大数据集抢先看

AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主题是「用 AI 挑战真实...

2102
来自专栏新智元

【会建模你也能当奥斯卡评委】机器学习预测奥斯卡6大奖项全中!

---- 新智元编译 来源:blog.bigml.com 编译:肖琴 【新智元导读】自去年成功预测第89届奥斯卡8项大奖后,机器学习和数据分析平台Bi...

3429
来自专栏新智元

【干货】如何成为深度学习专家的七大步骤

首先为用Buzz做为点击标题的诱饵道歉,但是它确实是起到了一定的作用,并且吸引了大批读者来阅读此文章。 在我们的工作中,经常被问及的问题之一就是“从哪里开始学习...

3748
来自专栏AI研习社

AI Challenger 2018 即将进入决赛,八大数据集抢先看

雷锋网(公众号:雷锋网) AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主...

1444

扫码关注云+社区

领取腾讯云代金券