hadoop学习笔记

146 篇文章
27 人订阅

全部文章

IT小白龙

HanLP-停用词表的使用示例

停用词表在“pyhanlp\static\data\dictionary”路径下的“stopwords.txt”文件中,CoreStopWordDictiona...

192
IT小白龙

自然语言处理工具pyhanlp分词与词性标注

Pyhanlp分词与词性标注的相关内容记得此前是有分享过的。可能时间太久记不太清楚了。以下文章是分享自“baiziyu”所写(小部分内容有修改),供大家学习参考...

380
IT小白龙

比较好的中文分词方案汇总推荐

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分...

762
IT小白龙

自然语言处理工具hanlp 1.7.3版本更新内容一览

HanLP 1.7.3 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性...

975
IT小白龙

Spark中分布式使用HanLP(1.7.0)分词示例

HanLP分词,如README中所说,如果没有特殊需求,可以通过maven配置,如果要添加自定义词典,需要下载“依赖jar包和用户字典".

992
IT小白龙

java中利用hanlp比较两个文本相似度的步骤

使用 HanLP - 汉语言处理包 来处理,他能处理很多事情,如分词、调用分词器、命名实体识别、人名识别、地名识别、词性识别、篇章理解、关键词提取、简繁拼音转换...

772
IT小白龙

如何在java中去除中文文本的停用词

第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。

762
IT小白龙

hanlp 加载远程词库示例

·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以Cus...

934
IT小白龙

HanLP 自然语言处理 for nodejs

支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,...

811
IT小白龙

HanLP Analysis for Elasticsearch

·插件开发完成时,最新版本已经为 6.5.2 了,所以个人只对典型的版本进行了测试;

812
IT小白龙

HanLP vs LTP 分词功能测试

文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0

933
IT小白龙

HanLP Android 示例

portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖:

632
IT小白龙

HanLP中文分词Lucene插件

基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。

752
IT小白龙

基于结构化感知机的词性标注与命名实体识别框架

上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容...

802
IT小白龙

分词工具Hanlp基于感知机的中文分词框架

结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自...

982
IT小白龙

汉语言处理工具pyhanlp的简繁转换

HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做...

1103
IT小白龙

Hanlp中N最短路径分词详细介绍

N-最短路径 是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法...

650
IT小白龙

Hanlp汉字转拼音使用python调用详解

HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、...

490
IT小白龙

如何在hanlp词典中手动添加未登录词

我们在使用hanlp词典进行分词的时候,难免会出现分词不准确的情况,原因是由于内置词典中并没有收录当前的这个词,也就是我们所说的未登录词,只要把这个词加入到内置...

560
IT小白龙

Hanlp自然语言处理中的词典格式说明

使用过hanlp的都知道hanlp中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了hanlp中的词典格式,以满足用户自...

572

扫码关注云+社区