专栏首页杨熹的专栏中文NLP笔记:14. 中文命名实体提取

中文NLP笔记:14. 中文命名实体提取

1. NER 是什么

  指的是识别语料中人名、地名、组织机构名等命名实体

  一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比)

  是信息抽取、信息检索、机器翻译、问答系统等很多nlp任务必不可少的部分。

2. 常见方法

  1. 基于规则和词典

  采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段

  优点:性能要优于基于统计的方法

  缺点:编制过程耗时,特别容易产生错误,系统可移植性不好

  2. 基于统计

  主要包括隐马尔可夫模型 、最大熵、支持向量机、条件随机场等

    最大熵,具有较好的通用性,主要缺点是训练时间长复杂性高

    条件随机场,有特征灵活、全局最优的标注框架,缺点是收敛速度慢、训练时间长

    最大熵和支持向量机比HMM的正确率高一些,HMM的速度要快一些

  3. 二者混合

  借助规则知识提前进行过滤修剪处,同时使用基于统计的方法

3. 一般流程

  1. 对语料进行分词

  2. 对分词结果进行领域标签标注

  3. 对标注的分词进行抽取

  4. 将抽取的分词组成需要的领域的命名实体


学习资料:

《中文自然语言处理入门实战》

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 用对偶法求解 SVR

    即 它在线性函数两侧制造了一个“间隔带”,对于所有落入到间隔带内的样本,都不计算损失;只有间隔带之外的,才计入损失函数

    杨熹
  • 每天都开心的要诀

    《人性的弱点》 四年前的一件事,让我读到这本书,它伴随我走过最艰难的时候。那时候只是难受的时候,坐在宿舍楼下的咖啡吧,喝着卡布奇诺,吃着薯条蘸番茄酱,一边一页一...

    杨熹
  • 面试官怎么看你的Github profile

    Udacity的Machine Learning纳米学位课程中,关于Github的笔记。 听课范围: Github Profile Git 和 Github...

    杨熹
  • 从零开始仿写一个抖音App——视频编辑SDK开发(一)

    本文首发于微信公众号——世界上有意思的事,搬运转载请注明出处,否则将追究版权责任。交流qq群:859640274

    何时夕
  • python+django+mysql学

    1. 从 http://www.python.org/download/ 下载最新的python版本 (我用的是python2.72, 当时最稳定的)

    py3study
  • Excel | 10分钟搞定数据透视表

    数据透视表是一种可以快速汇总大量数据的交互式报表,总结信息的分析工具,快速比较统计数据,综合了Excel中数据排序、筛选、分类汇总数据分析的优点,可以方便的调整...

    CDA数据分析师
  • 你中招了吗?2014年手机安全用户研究专题报告出炉(腾讯移动安全实验室提供)

    2014年手机安全用户研究专题报告 中毒手机用户群体研究 随着目前手机安全风险日益严峻,染毒手机用户呈逐月递增趋势,基于更好的定位手机安全群体特性的目的,从...

    腾讯高校合作
  • 如何用自己喜欢的 CSS 风格重置网站的样式[每日前端夜话0x44]

    许多前端开发人员都在用 Normalize 为他们的网站设计样式。一些人喜欢在 Normalize.css 中添加一些自己偏好的样式,我也一样。

    疯狂的技术宅
  • 等了大半个月的b站offer,附算法岗三面面经

    9月底第一批的面试,算法岗 终于等到你== 发一波面经,回馈一下牛客 一面 1.自我介绍 2.项目介绍 非常细致深入的讨论了项目 3.索引 一维 红...

    牛客网
  • 业务逻辑漏洞探索之活动类漏洞

    很多平台都会通过参与活动类赢取奖励的功能的方式来吸引用户或是使用资金、虚拟货币、积分等进行交易,然而如果这些功能没有设计好,很容易造成重大的利益损失。例如年初拼...

    漏斗社区

扫码关注云+社区

领取腾讯云代金券