腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
hadoop学习笔记
专栏成员
举报
176
文章
194931
阅读量
28
订阅数
订阅专栏
申请加入专栏
全部文章(176)
编程算法(38)
java(34)
大数据(29)
其他(24)
NLP 服务(22)
hadoop(22)
中文分词(19)
开源(17)
python(14)
jar(12)
git(10)
分布式(9)
github(8)
http(7)
机器学习(6)
sql(6)
linux(6)
缓存(6)
txt(6)
神经网络(5)
c++(4)
html(4)
api(4)
apache(4)
spring(4)
spark(4)
jvm(4)
面向对象编程(4)
Elasticsearch Service(4)
node.js(3)
xml(3)
maven(3)
analyzer(3)
深度学习(3)
人工智能(3)
大数据解决方案(3)
存储(3)
数据处理(3)
dictionary(3)
数据库(2)
云数据库 SQL Server(2)
nosql(2)
ide(2)
eclipse(2)
tomcat(2)
搜索引擎(2)
mapreduce(2)
网站(2)
政务云专区(2)
运维(2)
压力测试(2)
数据可视化(2)
数据结构(2)
https(2)
hbase(2)
code(2)
data(2)
jieba(2)
text(2)
登录(2)
对象存储(1)
负载均衡(1)
腾讯云gme(1)
区块链(1)
自动驾驶(1)
数据挖掘(1)
bash(1)
css(1)
android(1)
云数据库 Redis®(1)
打包(1)
全文检索(1)
lucene/solr(1)
nginx(1)
bash 指令(1)
容器镜像服务(1)
文件存储(1)
TDSQL MySQL 版(1)
腾讯云测试服务(1)
电商(1)
数据安全(1)
容器(1)
互联网金融(1)
爬虫(1)
无人驾驶(1)
hive(1)
spring boot(1)
hashmap(1)
监督学习(1)
cdn(1)
kernel(1)
gradle(1)
spring cloud(1)
anaconda(1)
数据分析(1)
windows(1)
系统架构(1)
微服务(1)
nat(1)
腾讯云开发者社区(1)
云计算(1)
虚拟化(1)
es(1)
智能推荐平台(1)
load(1)
naivebayes(1)
properties(1)
python3(1)
root(1)
工具(1)
搜索文章
搜索
搜索
关闭
HanLP封装为web services服务的过程介绍
tomcat
apache
网站
编程算法
xml
前几天的召开的2019年大数据生态产业大会不知道大家关注到没有,看到消息是hanlp2.0版本发布了。不知道hanlp2.0版本又将带来哪些新的变化?准备近期看能够拿到一些hanlp2.0的资料,如果能顺利拿到的话,到时候分享给大家!今天分享这篇是关于将hanlp封装到web services服务中的。文章的部分内容有修改,阅读室请注意!
IT小白龙
2019-08-09
586
0
hanlp分词工具应用案例:商品图自动推荐功能的应用
java
编程算法
云数据库 SQL Server
sql
数据库
本篇分享一个hanlp分词工具应用的案例,简单来说就是做一图库,让商家轻松方便的配置商品的图片,最好是可以一键完成配置的。
IT小白龙
2019-08-07
1K
0
HanLP分词工具中的ViterbiSegment分词流程
编程算法
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也是作者直接封装到HanLP类中的分词器,作者也推荐使用该分词器,同时文本分类包以及其他一些自然语言处理任务包中的分词器也都间接使用了ViterbiSegment分词器。
IT小白龙
2019-08-05
1.1K
0
HanLP-命名实体识别总结
java
编程算法
c++
在HanLP中,基于角色标注识别了中国人名。首先系统利用隐马尔可夫模型标注每个词语的角色,之后利用最大模式匹配法对角色序列进行匹配,匹配上模式的即为人名。理论指导文章为:《基于角色标注的中国人名自动识别研究》,大家可以百度一下看看
IT小白龙
2019-07-31
1.9K
0
自然语言处理工具HanLP-基于层叠HMM地名识别
jieba
txt
本篇接上一篇内容《HanLP-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。
IT小白龙
2019-07-26
571
0
HanLP-基于HMM-Viterbi的人名识别原理介绍
编程算法
Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了。看了 baiziyu 分享的这篇比我之前分享的要简单明了的多。下面就把文章分享给大家交流学习之用,部分内容有做修改。
IT小白龙
2019-07-24
819
0
HanLP-朴素贝叶斯分类预测缺陷
神经网络
机器学习
深度学习
人工智能
java
文章整理自 baiziyu 的知乎专栏,感兴趣的朋友可以去关注下这位大神的专栏,很多关于自然语言处理的文章写的很不错。昨天看到他的分享的两篇关于朴素贝叶斯分类预测的文章,整理了一下分享给给大家,文章已做部分修改!
IT小白龙
2019-07-22
590
0
HanLP-地名识别调试方法
text
txt
HanLP收词特别是实体比较多,因此特别容易造成误识别。下边举几个地名误识别的例子,需要指出的是,后边的机构名识别也以地名识别为基础,因此,如果地名识别不准确,也会导致机构名识别不准确。
IT小白龙
2019-07-19
675
0
自然语言处理工具python调用hanlp的方法步骤
python
Python调用hanlp的方法此前有分享过,本篇文章分享自“逍遥自在017”的博客,个别处有修改,阅读时请注意!
IT小白龙
2019-07-17
410
0
python调用hanlp进行命名实体识别
jvm
NLP 服务
python
api
本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。
IT小白龙
2019-07-15
1.7K
0
hanlp添加自定义字典的步骤介绍
txt
第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。如果没有的话它会根据配置文件中路径去加载字典生成bin文件。
IT小白龙
2019-07-12
1.4K
0
Spring MVCD框架中调用HanLP分词的方法
spring
maven
java
编程算法
项目简要:关于java web的一个项目,用的Spring MVCd 框架。鉴于参与此次项目的人中并不是所人都做的Spring,为了能够提高效率,建议大家是先抛开SPring来写自己负责的模块,最后再把各个模块在Spring里面集成。
IT小白龙
2019-07-10
775
0
基于hanlp的es分词插件
Elasticsearch Service
摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词
IT小白龙
2019-07-01
1.1K
0
pyhanlp 繁简转换之拼音转换与字符正则化
java
缓存
编程算法
HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。
IT小白龙
2019-06-28
1.1K
0
自然语言处理工具中的中文分词器介绍
中文分词
编程算法
机器学习
NLP 服务
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果,当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。
IT小白龙
2019-06-24
1.5K
0
Ansj与hanlp分词工具对比
文件存储
腾讯云gme
3、由于版本问题,可能DicAnalysis, ToAnalysis等类没有序列化,导致读取hdfs数据出错
IT小白龙
2019-06-21
848
0
python使用jieba实现中文文档分词和去停用词
中文分词
jieba
python3
工具
现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。
IT小白龙
2019-06-19
2.8K
0
Hanlp配置自定义词典遇到的问题与解决方法
java
dictionary
properties
root
txt
本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。
IT小白龙
2019-06-17
1.6K
0
elasticsearch教程--中文分词器作用和使用
es
Elasticsearch Service
中文分词
http
https
本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例
IT小白龙
2019-06-12
2.4K
0
HanLP-最短路径分词
node.js
github
java
https
git
今天介绍的内容是最短路径分词。最近换回了thinkpad x1,原因是mac的13.3寸的屏幕看代码实在是不方便,也可能是人老了吧,^_^。等把HanLP词法分析介绍结束后,还是会换回macbook pro的。个人有强迫症,只要看或写Java或C/C++代码或者用开发机的化,还是喜欢在windows下工作。看论文特别是理论的研究还是习惯用mac了。感觉开发还是windows比较顺手,理论研究还是mac比较顺手。
IT小白龙
2019-06-05
826
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档