专栏首页hadoop学习笔记基于hanlp的es分词插件

基于hanlp的es分词插件

摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词

Elasticsearch

默认分词

输出:

IK分词

输出:

hanlp分词

输出:

ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词

安装步骤:

1、进入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下载插件并解压到es的plugins目录下,修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data

目录的地址

2、修改es config目录下的jvm.options文件,最后一行添加

-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy

重启es

GET /_analyze?analyzer=hanlp-index&pretty=true

{

“text”:”张柏芝士蛋糕店”

}

测试是否安装成功

analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)

自定义词典

修改plugins/analysis-hanlp/data/dictionary/custom下的 我的词典.txt文件

格式遵从[单词] [词性A] [A的频次]

修改完后删除同目录下的CustomDictionary.txt.bin文件

重启es服务

原文链接:https://blog.csdn.net/pengcong90/article/details/76843760

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Hanlp在ubuntu中的使用方法介绍

    HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参...

    IT小白龙
  • 自然语言处理工具python调用hanlp中文实体识别

    Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于han...

    IT小白龙
  • 菜鸟如何使用hanlp做分词的过程记录

    最近在学习hanlp的内容,准备在节后看看有没有时间整理一波hanlp分享下,应该还是会像之前分享DKHadoop一样的方式吧。把整个学习的过程中截图在配文字的...

    IT小白龙
  • 如何在ubuntu使用hanlp

      以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客:

    用户3492023
  • 自然语言处理工具python调用hanlp中文实体识别

    Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于han...

    IT小白龙
  • 菜鸟如何使用hanlp做分词的过程记录

    最近在学习hanlp的内容,准备在节后看看有没有时间整理一波hanlp分享下,应该还是会像之前分享DKHadoop一样的方式吧。把整个学习的过程中截图在配文字的...

    IT小白龙
  • 【快报】苹果收购机器学习公司 Tuplejump | D-wave 创始人公司让猴子远程操控机器人

    新智元 AI DAILY 1 苹果收购机器学习公司 Tuplejump ? 苹果公司确认收购印度初创公司 Tuplejump,Tuplejump 是一家数据...

    新智元
  • Day66:机器人的运动范围

    背景知识介绍:   在做题之前,首先给大家介绍数据结构中典型的两种遍历方式:深度优先遍历以及广度优先遍历。图的遍历是指从图中的任一顶点出发,对图中的所有顶点访...

    stefan666
  • 动态 | 微博成立北美 AI 研发中心,中国企业继续布局国外

    AI 科技评论消息,4 月 21 日(美国当地时间 4 月 20 日)微博宣布在加州硅谷 Palo Alto 成立微博北美研发中心,主要技术方向为 AI(人工智...

    AI科技评论
  • 新浪微博和SAP CRM Interaction Center(呼叫中心)的集成

    这是SAP成都研究院CRM dev team2013年开发的新功能。 发布两条微博:

    Jerry Wang

扫码关注云+社区

领取腾讯云代金券