首页
学习
活动
专区
工具
TVP
发布

hanlp学习笔记

专栏作者
21
文章
19744
阅读量
17
订阅数
汉语言处理包Hanlp的使用
本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z
用户3492023
2018-12-04
7980
中文分词语言处理HanPL配置,以及在eclipse中安装使用方式
HanLP由3部分组成:类库hanlp.jar包、模型data包、配置文件hanlp.properties,请前往项目主页下载最新版:https://github.com/hankcs/HanLP/releases。对于非portable版,下载后,你需要编辑配置文件第一行的root指向data的父目录,方法:
用户3492023
2018-12-04
6130
如何在ubuntu使用hanlp
  以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客:
用户3492023
2018-11-21
7250
python调用HanLP
首先各种坑,jdk和python 版本位数必须一致,我用的是JPype1-py3 版本号0.5.5.2 、1.6jdk和Python3.5,win7 64位下亲测没问题。
用户3492023
2018-11-21
1.3K0
汉语言处理包Hanlp的使用
本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z
用户3492023
2018-11-21
6100
中文分词语言处理HanPL配置,以及在eclipse中安装使用方式
HanLP由3部分组成:类库hanlp.jar包、模型data包、配置文件hanlp.properties,请前往项目主页下载最新版:https://github.com/hankcs/HanLP/releases。对于非portable版,下载后,你需要编辑配置文件第一行的root指向data的父目录,方法:
用户3492023
2018-11-21
4580
Eclipse安装试用Hanlp
http://hanlp.linrunsoft.com/services.html
用户3492023
2018-11-21
6000
中文分词语言处理HanPL配置,以及在eclipse中安装使用方式
HanLP由3部分组成:类库hanlp.jar包、模型data包、配置文件hanlp.properties,请前往项目主页下载最新版:https://github.com/hankcs/HanLP/releases。对于非portable版,下载后,你需要编辑配置文件第一行的root指向data的父目录,方法:
用户3492023
2018-11-09
7230
Eclipse安装试用Hanlp
http://hanlp.linrunsoft.com/services.html
用户3492023
2018-11-09
5930
hanlp源码解析之中文分词算法
词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。
用户3492023
2018-11-09
7860
hanlp安装和使用
在https://github.com/hankcs/HanLP/releases中下载data然后覆盖HanLP-1.3.4.zip解压后的data
用户3492023
2018-11-09
1.4K0
hanlp安装和使用
在https://github.com/hankcs/HanLP/releases中下载data然后覆盖HanLP-1.3.4.zip解压后的data
用户3492023
2018-10-30
1.1K0
Spark应用HanLP对中文语料进行文本挖掘--聚类
用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;
用户3492023
2018-10-30
1.3K0
NLP学习------HanLP使用实验
在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6]所使用的分词工具来分词,会比不同工具(jieba)的效果要好,因为都是同一模式的分词,分出来的词应该都会存在于大型语料库中。实验证明思路是对的,最后结果是只有60几个词不在词向量里,其中大部分为名词,还有些为因语音翻译问题所造成的出错连词,所有这些词也只出现一次,这部分可以考虑最后删去也不会影响结果。改善未出现词是个关键步骤,因为此后模型会用到词向量,如果未出现词过多,会影响词向量效果。
用户3492023
2018-10-15
9350
hanlp中的N最短路径分词
N-最短路径 是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束所有路径中最短的前N条路径。因为允许相等长度的路径并列,故最终的结果集合会大于或等于N。
用户3492023
2018-10-15
7760
HanLP分词器的使用方法
之前我有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。
用户3492023
2018-10-15
6050
Hanlp使用Bug记录
最近一直比较忙,好多私信也没时间回复。以后要完全从CV转NLP,所以博客内容可能要作调整了。
用户3492023
2018-10-15
4290
Java中文分词hanlp使用
github地址:https://github.com/hankcs/HanLP
用户3492023
2018-10-15
3.2K0
使用HanLP增强Elasticsearch分词功能
hanlp-ext 插件源码地址:http://git.oschina.net/hualongdata/hanlp-ext 或 https://github.com/hualongdata/hanlp-ext
用户3492023
2018-10-12
1.4K0
HanLP自然语言处理包初步安装与使用
        HanLP是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
用户3492023
2018-10-12
8460
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档