学习
实践
活动
工具
TVP
写文章

Elasticsearch分词:Ansj分词器

项目的文档地址:http://nlpchina.github.io/ansj_seg/ 获取Jar包地址:https://mvnrepository.com/artifact/org.ansj/ansj_seg : org.ansj.exception.LibraryException: org.ansj.exception.LibraryException: path :ansj_library.properties keyword=宁夏回族自治区 从文件中加载词典方式二: package com.ansj.master.ansj.core; import com.ansj.master.ansj.constant.SystemConstants keyword=ansj中文分词&str=我觉得Ansj中文分词是一个不错的系统!我是王婆! -6.7.2/config/elasticsearch-analysis-ansj/ansj.cfg.yml stop: config/ansj_dic/dic/stopLibrary.dic Ambiguity

1K11

ANSJ中文分词使用方法

一、前言 之前做solr索引的时候就使用了ANSJ进行中文分词,用着挺好,然而当时没有写博客记录的习惯。最近又尝试了好几种JAVA下的中文分词库,个人感觉还是ANSJ好用,在这里简单总结之。 关于中文分词的深层理论等,我就不在此讲述了,我本身也对此块理论没有深入的领会,直接来讲述ANSJ的使用。 三、ANSJ中文分词 3.1 ANSJ简介 其Github地址为https://github.com/NLPchina/ansj_seg。 https://github.com/NLPchina/ansj_seg/wiki/在上述项目WIKI中也详细讲述了ANSJ的理论及使用方法等。 3.3 ANSJ使用 分词方式 ANSJ提供了多种分词方式,如下: System.out.println("BASE"); System.out.println(BaseAnalysis.parse(str

1.5K90
  • 广告
    关闭

    2022腾讯全球数字生态大会

    11月30-12月1日,邀您一起“数实创新,产业共进”!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Ansj与hanlp分词工具对比

    一、Ansj 1、利用DicAnalysis可以自定义词库: 图1.JPG 2、但是自定义词库存在局限性,导致有些情况无效: 比如:“不好用“的正常分词结果:“不好,用”。

    41720

    基于java的中文分词工具ANSJ

    分词的目的是创建一个高稳定可用的中文分词工具,可以利用到各种需要文字处理的场景中下面简单介绍一下Ansj中文分词的主要算法及特点. ,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" /w,ansj/en,_,seg/en,更快/d,,/w,更/d,准/a,,/w,更/d,自由/a,! /w 欢迎/v,使用/v,ansj/en,_,seg/en,,/w,ansj/en,中文/nz,分词/v,在/p,这里/r,如果/c,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,. /w,ansj/en,_,seg/en,更快/d,,/w,更/d,准/a,,/w,更/d,自由/a,!/w

    1.2K50

    Elasticsearch使用:Suggester API(二)

    ":{ "type":"text", "analyzer":"index_ansj_analyzer ":{ "type":"text", "analyzer":"index_ansj_analyzer ":{ "type":"text", "analyzer":"index_ansj_analyzer SuggestionBuilder drugnameTermSuggestionBuilder = SuggestBuilders.termSuggestion("commonname.ansj PhraseSuggestionBuilder drugnameSuggestBuilder = SuggestBuilders.phraseSuggestion("commonname.ansj

    43791

    R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)

    8款中文分词器的综合性能排名: Paoding(准确率、分词速度、新词识别等,最棒) mmseg4j(切分速度、准确率较高) IKAnalyzer Imdict-chinese-analyzer Ansj —————————————————————————————————— Rwordseg分词原理以及功能详情 Rwordseg 是一个R环境下的中文分词工具,使用 rJava 调用 Java 分词工具 Ansj Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法, 采用隐马尔科夫模型(Hidden Markov Model, HMM)。 4、算法效率 在我的测试中,Ansj的效率已经远超ictclas的其他开源实现版本。 核心词典利用双数组规划,每秒钟能达到千万级别的粗分。 参考文献: Rwordseg说明:http://jianl.org/cn/R/Rwordseg.html ansj中文分词github:https://github.com/NLPchina/ansj_seg

    1.9K31

    SolrCloud6.1.0之SQL查询测试

    一些心得: (1)关于如何集成中文分词IK或者Ansj 单机版的solr,如果是IK,需要在 solr\server\solr-webapp\webapp\WEB-INF目录下,新建一个classes 如果是Ansj,则需要将Ansj相关的jar包放入solr\server\solr-webapp\webapp\WEB-INF\lib下, 然后将Ansj的library的目录,放在solr\server

    65650

    商品搜索引擎—分词(插件介绍与入门实例)

    本文主要介绍四个分词插件(ICTCLAS、IKAnalyzer、Ansj、Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐。 三、Ansj 3.1、介绍 Ansj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟大约 detail/u013142781/9494969),将ansj_seg-20130808 .jar引入到java项目中。 ; import org.ansj.splitWord.Analysis; import org.ansj.splitWord.analysis.ToAnalysis; public class 五、自己使用算法实现 上面IKAnalyzer、Ansj、Jcseg都是java开源项目,可根据自己的个性化需求修改源码。 当然,其实也是可以自己写算法实现的。

    20730

    如何使用Pig集成分词器来统计新闻词频?

    本篇呢,散仙会使用Ansj分词器+Pig来统计中文的词频,Pig的TOKENIZE只支持对英文句子的切分,为什么呢? 中文的切分,需要有词库支持,才能分割出一个个词汇,或者比较暴力一点的,直接根据算法进行Ngram,也不需要词库支持,但这样切分出来的词汇,可能大部分时候都不太友好,意义也不太大,目前比较不错的开源的分词器有ansj ,ik,meseg4j等,随便选一款就行,散仙在这里用的ansj的分词器,有对ansj感兴趣的朋友,可以参考此处 分词器选好了,分词功能也实现了,下一步就该考虑如何把这个功能与Pig集成起来,其实答案也很明显 Object o = input.get(0); List<Term> terms=ToAnalysis.parse((String)o);//获取Ansj return null; } } } UDF写完后,需打成一个jar包,然后在Pig脚本里注册jar包(依赖的jar包也需要注册,例如本例中的ansj

    56050

    记录:Elasticsearch长文本keyword异常

    "content":{ "type":"text", "fields":{ "ansj":{ "analyzer":"index_ansj_analyzer

    41630

    目前常用的自然语言处理开源项目开发包大汇总

    封面.jpg 中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词 关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析,文本分类:情感分析,word2vec,语料库工具 活跃度:github star 超过4千5,近期(201711)仍在保持更新 Ansj 开发语言:Java 网址:NLPchina/ansj_seg 协议:Apache License 2.0 功能:中文分词. 中文姓名识别 .

    2.1K20

    Elasticsearch使用:父-子关系文档(下)

    test_doctor { "settings": { "number_of_shards": 1, "analysis": { "analyzer": { "index_ansj_analyzer ": { "type": "custom", "tokenizer": "index_ansj", "filter": [ { "type": "long" }, "body": { "type": "text", "analyzer":"index_ansj_analyzer " } } }, "title": { "type": "text", "analyzer":"index_ansj_analyzer

    64831

    中文分词实践(基于R语言)

    Hadoop+Smallseg库 词库:Sougou词库,Sougou输入法官网可下载 这里只先介绍单机的实现: 1、R语言:专门用于统计分析、绘图的语言 2、Rwordseg分词包:引用了@ansj 开发的ansj中文分词工具,基于中科院的ictclas中文分词算法,无论是准确度还是运行效率都超过了rmmseg4j。

    69860

    程序开发过程中常见的Maven包

    >2.6.0</version> </dependency> 分词系统 一个高稳定可用的中文分词工具,可以利用到各种需要文字处理的场景中 <dependency> <groupId>org.ansj </groupId> <artifactId>ansj_seg</artifactId> <version>5.0.2</version> </dependency> Guava Guava

    7230

    干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)

    http://www.nlpcn.org/ Github: https://github.com/NLPchina Ansj Ansj是一个NLPchina旗下的开源的Java中文分词工具,基于中科院的 https://github.com/NLPchina/ansj_seg Word2VEC_java word2vec java版本的一个实现。 https://github.com/yao8839836/doc2vec_java ansj_fast_lda LDA算法的Java包。 https://github.com/NLPchina/ansj_fast_lda nlp-lang 这个项目是一个基本包.封装了大多数nlp项目中常用工具 https://github.com/NLPchina

    2.1K10

    用线性回归无编码实现文章浏览数预测

    准备工作 下载Spark 2.0,基于Scala 2.10版本 下载StreamingPro 下载分词包 ansj-seg 我们假设你下载的StreamingPro,ansi-seg包在/tmp目录下。 /spark-submit --class streaming.core.StreamingApp \ --master local[2] \ --name test \ --jars /tmp/ansj_seg

    19710

    R分词继续,不|知道|你在|说|什么分词添加新词

    分布式:Hadoop+Smallseg库 词库:Sougou词库,Sougou输入法官网可下载 这里只先介绍单机的实现: 1、R语言:专门用于统计分析、绘图的语言 2、Rwordseg分词包:引用了@ansj 开发的ansj中文分词工具,基于中科院的ictclas中文分词算法,无论是准确度还是运行效率都超过了rmmseg4j。

    56190

    扫码关注腾讯云开发者

    领取腾讯云代金券