腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
hadoop学习笔记
专栏作者
举报
176
文章
181551
阅读量
28
订阅数
订阅专栏
申请加入专栏
全部文章(176)
编程算法(38)
java(34)
大数据(29)
其他(24)
NLP 服务(22)
hadoop(22)
中文分词(19)
开源(17)
python(14)
jar(12)
git(10)
分布式(9)
github(8)
http(7)
机器学习(6)
sql(6)
linux(6)
缓存(6)
txt(6)
神经网络(5)
c++(4)
html(4)
api(4)
apache(4)
spring(4)
spark(4)
jvm(4)
面向对象编程(4)
Elasticsearch Service(4)
node.js(3)
xml(3)
maven(3)
analyzer(3)
深度学习(3)
人工智能(3)
大数据解决方案(3)
存储(3)
数据处理(3)
dictionary(3)
数据库(2)
云数据库 SQL Server(2)
nosql(2)
ide(2)
eclipse(2)
tomcat(2)
搜索引擎(2)
mapreduce(2)
网站(2)
政务云专区(2)
运维(2)
压力测试(2)
数据可视化(2)
数据结构(2)
https(2)
hbase(2)
code(2)
data(2)
jieba(2)
text(2)
登录(2)
对象存储(1)
负载均衡(1)
腾讯云gme(1)
区块链(1)
自动驾驶(1)
数据挖掘(1)
bash(1)
css(1)
android(1)
云数据库 Redis(1)
打包(1)
全文检索(1)
lucene/solr(1)
nginx(1)
bash 指令(1)
容器镜像服务(1)
文件存储(1)
TDSQL MySQL 版(1)
腾讯云测试服务(1)
电商(1)
数据安全(1)
容器(1)
互联网金融(1)
爬虫(1)
无人驾驶(1)
hive(1)
spring boot(1)
hashmap(1)
监督学习(1)
cdn(1)
kernel(1)
gradle(1)
spring cloud(1)
anaconda(1)
数据分析(1)
windows(1)
系统架构(1)
微服务(1)
nat(1)
腾讯云开发者社区(1)
云计算(1)
虚拟化(1)
es(1)
智能推荐平台(1)
load(1)
naivebayes(1)
properties(1)
python3(1)
root(1)
工具(1)
搜索文章
搜索
搜索
关闭
自然语言处理工具中的中文分词器介绍
中文分词
编程算法
机器学习
NLP 服务
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果,当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。
IT小白龙
2019-06-24
1.4K
0
python使用jieba实现中文文档分词和去停用词
中文分词
jieba
python3
工具
现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。
IT小白龙
2019-06-19
2.6K
0
elasticsearch教程--中文分词器作用和使用
es
Elasticsearch Service
中文分词
http
https
本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例
IT小白龙
2019-06-12
2.3K
0
部分常用分词工具使用整理
git
github
开源
中文分词
面向对象编程
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
IT小白龙
2019-05-29
1.2K
0
比较好的中文分词方案汇总推荐
中文分词
NLP 服务
编程算法
机器学习
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。
IT小白龙
2019-05-13
1.8K
0
分词工具Hanlp基于感知机的中文分词框架
中文分词
编程算法
api
结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式的系统。本文先介绍中文分词框架部分内容。
IT小白龙
2019-04-03
943
0
hanlp和jieba等六大中文分工具的测试对比
中文分词
python
本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友!
IT小白龙
2019-02-26
2.1K
0
基于结构化平均感知机的分词器Java实现
编程算法
中文分词
最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等IO操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1个百分点,体积控制在11兆。如果训练一百个迭代,F值可达到96.31%,训练时间两分多钟。
IT小白龙
2019-01-14
903
0
HanLP分词命名实体提取详解
中文分词
分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版的hanlp在这方面有何提升!
IT小白龙
2019-01-11
1.8K
0
简单有效的多标准中文分词详解
中文分词
机器学习
神经网络
深度学习
人工智能
本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。
IT小白龙
2018-12-28
498
0
自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》
中文分词
大数据
在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。
IT小白龙
2018-12-24
351
0
在Python中调用Java扩展包HanLP测试记录
中文分词
最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。
IT小白龙
2018-12-12
2K
0
配置Hanlp自然语言处理进阶
中文分词
中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。
IT小白龙
2018-12-07
907
0
目前常用的自然语言处理开源项目/开发包大汇总
NLP 服务
github
git
开源
中文分词
中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,;
IT小白龙
2018-11-26
2.9K
0
自然语言处理中的分词问题总结
NLP 服务
中文分词
神经网络
java
python
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。
IT小白龙
2018-10-26
1.2K
0
hanlp自然语言处理包的基本使用--python
NLP 服务
python
中文分词
http
开源
hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。
IT小白龙
2018-09-28
595
0
全文检索Solr集成HanLP中文分词
全文检索
中文分词
开源
git
jar
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。
IT小白龙
2018-09-26
1.3K
0
史上最全中文分词工具整理
中文分词
腾讯云测试服务
我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。
IT小白龙
2019-06-03
1.2K
0
中文分词工具之基于字标注法的分词
python
中文分词
中文分词字标注通常有2-tag,4-tag和6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。
IT小白龙
2019-06-26
669
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档