前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中文NLP笔记:14. 中文命名实体提取

中文NLP笔记:14. 中文命名实体提取

作者头像
杨熹
发布2019-03-06 12:38:37
1.5K0
发布2019-03-06 12:38:37
举报
文章被收录于专栏:杨熹的专栏杨熹的专栏

1. NER 是什么

  指的是识别语料中人名、地名、组织机构名等命名实体

  一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比)

  是信息抽取、信息检索、机器翻译、问答系统等很多nlp任务必不可少的部分。

2. 常见方法

  1. 基于规则和词典

  采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段

  优点:性能要优于基于统计的方法

  缺点:编制过程耗时,特别容易产生错误,系统可移植性不好

  2. 基于统计

  主要包括隐马尔可夫模型 、最大熵、支持向量机、条件随机场等

    最大熵,具有较好的通用性,主要缺点是训练时间长复杂性高

    条件随机场,有特征灵活、全局最优的标注框架,缺点是收敛速度慢、训练时间长

    最大熵和支持向量机比HMM的正确率高一些,HMM的速度要快一些

  3. 二者混合

  借助规则知识提前进行过滤修剪处,同时使用基于统计的方法

3. 一般流程

  1. 对语料进行分词

  2. 对分词结果进行领域标签标注

  3. 对标注的分词进行抽取

  4. 将抽取的分词组成需要的领域的命名实体


学习资料:

《中文自然语言处理入门实战》

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.02.23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档