腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
hadoop学习笔记
专栏成员
举报
176
文章
190253
阅读量
28
订阅数
订阅专栏
申请加入专栏
全部文章(176)
编程算法(38)
java(34)
大数据(29)
其他(24)
NLP 服务(22)
hadoop(22)
中文分词(19)
开源(17)
python(14)
jar(12)
git(10)
分布式(9)
github(8)
http(7)
机器学习(6)
sql(6)
linux(6)
缓存(6)
txt(6)
神经网络(5)
c++(4)
html(4)
api(4)
apache(4)
spring(4)
spark(4)
jvm(4)
面向对象编程(4)
Elasticsearch Service(4)
node.js(3)
xml(3)
maven(3)
analyzer(3)
深度学习(3)
人工智能(3)
大数据解决方案(3)
存储(3)
数据处理(3)
dictionary(3)
数据库(2)
云数据库 SQL Server(2)
nosql(2)
ide(2)
eclipse(2)
tomcat(2)
搜索引擎(2)
mapreduce(2)
网站(2)
政务云专区(2)
运维(2)
压力测试(2)
数据可视化(2)
数据结构(2)
https(2)
hbase(2)
code(2)
data(2)
jieba(2)
text(2)
登录(2)
对象存储(1)
负载均衡(1)
腾讯云gme(1)
区块链(1)
自动驾驶(1)
数据挖掘(1)
bash(1)
css(1)
android(1)
云数据库 Redis(1)
打包(1)
全文检索(1)
lucene/solr(1)
nginx(1)
bash 指令(1)
容器镜像服务(1)
文件存储(1)
TDSQL MySQL 版(1)
腾讯云测试服务(1)
电商(1)
数据安全(1)
容器(1)
互联网金融(1)
爬虫(1)
无人驾驶(1)
hive(1)
spring boot(1)
hashmap(1)
监督学习(1)
cdn(1)
kernel(1)
gradle(1)
spring cloud(1)
anaconda(1)
数据分析(1)
windows(1)
系统架构(1)
微服务(1)
nat(1)
腾讯云开发者社区(1)
云计算(1)
虚拟化(1)
es(1)
智能推荐平台(1)
load(1)
naivebayes(1)
properties(1)
python3(1)
root(1)
工具(1)
搜索文章
搜索
搜索
关闭
pyhanlp 两种依存句法分类器
其他
HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Accurate Dependency Parser using Neural Networks),这里还有一个发在了Github的实现程序,其实现语言为Python。除此之外,你还可以参考ljj123zz 的CSDN 一篇博客:blog.csdn.net/ljj123zz/article/details/78834838
IT小白龙
2018-12-21
848
0
DKhadoop安装配置步骤教程与常见问题解决
其他
上周分别就DKHadoop的安装准备工作以及服务器操作系统配置写了两篇分享的文章,这是个人第一次尝试写一个系统性的分享文章,必然会有很多疏漏的地方,还望见谅吧。今天分享的是DKHadoop安装以及常见问题的解决方案方法介绍。
IT小白龙
2018-12-17
506
0
pyhanlp用户自定义词典添加实例说明
其他
pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp
IT小白龙
2018-12-17
1.4K
0
ubuntu下pycharm调用Hanlp实践分享
其他
前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanlp2.0的信息,可能还需要过一段时间才能看到,只能等一下了!下面分享一篇大神的文章,是关于在ubuntu下使用pycharm调用hanlp的实验。
IT小白龙
2018-12-14
490
0
DKhadoop环境安装配置步骤详解
其他
在上一篇的分享文章中我是给大家分享了运行部署hadoop的一些安装准备工作,这篇接上一篇继续为大家分享一些个人的学习经验总结。我学习用的是大快发行版DKHadoop,所以所有的经验分享都是以DKHadoop为基础,这里要先说明一下。个人觉得DKHadoop对新手还是算是很友好的了,新手朋友们可以大快搜索网站下载一个三节点的dkhadoop玩一下看看
IT小白龙
2018-12-07
571
0
HanLP中人名识别分析详解
其他
分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列)。结巴分词目前就是利用BMES标签来分词的,B(开头),M(中间),E(结尾),S(独立成词)
IT小白龙
2018-12-05
925
0
HanLP二元核心词典详细解析
其他
本文分析:HanLP版本1.5.3中二元核心词典的存储与查找。当词典文件没有被缓存时,会从文本文件CoreNatureDictionary.ngram.txt中解析出来存储到TreeMap中,然后构造start和pair数组,并基于这两个数组实现词共现频率的二分查找。当已经有缓存bin文件时,那直接读取构建start和pair数组,速度超快。
IT小白龙
2018-12-03
892
0
hanlp中文智能分词自动识别文字提取实例
其他
需求:客户给销售员自己的个人信息,销售帮助客户下单,此过程需要销售人员手动复制粘贴收获地址,电话,姓名等等,一个智能的分词系统可以让销售人员一键识别以上各种信息
IT小白龙
2018-11-30
2.8K
0
pyhanlp 文本聚类详细介绍
其他
文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。
IT小白龙
2018-11-23
1.5K
0
大规模特征构建实践总结
其他
一般大公司的机器学习团队,才会尝试构建大规模机器学习模型,如果去看百度、头条、阿里等分享,都有提到过这类模型。当然,大家现在都在说深度学习,但在推荐、搜索的场景,据我所知,ROI并没有很高,大家还是参考wide&deep的套路做,其中的deep并不是很deep。而大规模模型,是非常通用的一套框架,这套模型的优点是一种非常容易加特征,所以本质是拼特征的质和量,比如百度、头条号称特征到千亿规模。可能有些朋友不太了解大规模特征是怎么来的,举个简单的例子,假设你有百万的商品,然后你有几百个用户侧的profile,二者做个交叉特征,很容易规模就过10亿。特征规模大了之后,需要PS才能训练,这块非常感谢腾讯开源了Angel,拯救了我们这种没有足够资源的小公司,我们的实践效果非常好。
IT小白龙
2018-11-19
884
0
pyhanlp 停用词与用户自定义词典功能详解
其他
之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。
IT小白龙
2018-11-16
1.5K
0
非局部神经网络,打造未来神经网络基本组件
其他
将非局部计算作为获取长时记忆的通用模块,提高神经网络性能在深度神经网络中,获取长时记忆(long-range dependency)至关重要。对于序列数据(例如语音、语言),递归运算(recurrent operation)是长时记忆建模的主要解决方案。对于图像数据,长时记忆建模则依靠大型感受野,后者是多层卷积运算堆叠的结果。
IT小白龙
2018-11-12
578
0
Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程
其他
用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;
IT小白龙
2018-11-12
958
0
自然语言处理之:搭建基于HanLP的开发环境
其他
环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP
IT小白龙
2018-11-09
737
0
hanlp源码解析之中文分词算法详解
其他
词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。
IT小白龙
2018-11-07
1.1K
0
HanLP用户自定义词典源码分析详解
其他
l 如果有些数量词、字母词需要分词,可参考:P2P和C2C这种词没有分出来,希望加到主词库
IT小白龙
2018-11-02
1.2K
0
动态分配多任务资源的移动端深度学习框架
其他
与云相比,移动系统受计算资源限制。然而众所周知,深度学习模型需要大量资源 。为使设备端深度学习成为可能,应用程序开发者常用的技术之一是压缩深度学习模型以降低其资源需求,但准确率会有所损失。尽管该技术非常受欢迎,而且已被用于开发最先进的移动深度学习系统,但它有一个重大缺陷:由于应用程序开发者独立开发自己的应用,压缩模型的资源-准确率权衡在应用开发阶段的静态资源预算的基础上就被预先确定了,在应用部署后仍然保持不变。
IT小白龙
2018-10-31
679
0
HanLP中的人名识别分析详解
其他
分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列)。结巴分词目前就是利用BMES标签来分词的,B(开头),M(中间),E(结尾),S(独立成词)
IT小白龙
2018-10-29
891
0
处理数据缺失的结构化解决办法
其他
数据缺失是数据科学家在处理数据时经常遇到的问题,本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法,但总有一款更适合当下情况。
IT小白龙
2018-10-26
776
0
Hanlp中使用纯JAVA实现CRF分词
其他
与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。
IT小白龙
2018-10-19
949
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档