专栏首页小鹏的专栏[solr] solr5.5.2配置结巴分词工具

[solr] solr5.5.2配置结巴分词工具

为什么选择结巴分词

  • 分词效率高
  • 词料库构建时使用的是jieba (python)

结巴分词Java版本

  • 下载
git clone https://github.com/huaban/jieba-analysis
  • 编译
  1. cd jieba-analysis
  2. mvn install
  • 注意
如果mvn版本较高,需要修改pom.xml文件,在plugins前面增加 

或者直接下载jieba-analysis-1.0.2.jar:链接:https://pan.baidu.com/s/1kt3wE7v-hdrM_04asLyFGg 密码:boda

solr tokenizer版本

./gladlew build

集成到solr

拷贝上面两个jar包到solr的目录下:server/solr-webapp/webapp/WEB-INF/lib

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Lucene&Solr&ElasticSearch-面试题

    Lucene是apache下的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎...

    java思维导图
  • ElasticSearch 极简教程

    平时我们在 GitHub 上进行搜索的时候,Github 不仅可以帮我们找到相隔的代码产库,还可以帮助实现代码级的搜索及搜索词的高亮的显示,。当你在网上购物的时...

    一个会写诗的程序员
  • 全文检索Solr集成HanLP中文分词

    以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),...

    IT小白龙
  • 全文搜索引擎Solr原理和实战教程

    Solr它是一种开放源码的、基于 Lucene Java 的搜索服务器,易于加入到 Web 应用程序中。Solr 提供了层面搜索(就是统计)、命中醒目显示并且支...

    一个会写诗的程序员
  • 海量数据搜索---搜索引擎

    在我们平常的生活工作中,百度、谷歌这些搜索网站已经成为了我们受教解惑的学校,俗话说得好,“有问题找度娘”。那么百度是如何在海量数据中找到自己需要的数据呢?为什么...

    宜信技术学院
  • 后端技术杂谈4:Elasticsearch与solr入门实践

    本系列文章将整理到我在GitHub上的《Java面试指南》仓库,更多精彩内容请到我的仓库里查看

    Java技术江湖
  • 如何使用Flume准实时建立Solr的全文索引

    Fayson
  • Web-第二十八天 Lucene&solr使用一【悟空教程】

    上图就是原始搜索引擎技术,如果用户比较少而且数据库的数据量比较小,那么这种方式实现搜索功能在企业中是比较常见的。

    Java帮帮
  • Solr技术(附软件分享)

    Solr 版本:solr-4.10.3.tgz.tgz SolrLinux下的软件安装包以及中文分词器见末尾百度云1

    时间静止不是简史

扫码关注云+社区

领取腾讯云代金券