hadoop学习笔记

82 篇文章
16 人订阅

全部文章

IT小白龙

ubuntu下pycharm调用Hanlp实践分享

前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanl...

130
IT小白龙

在Python中调用Java扩展包HanLP测试记录

最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-...

520
IT小白龙

Hanlp在ubuntu中的使用方法介绍

HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参...

552
IT小白龙

DKhadoop环境安装配置步骤详解

在上一篇的分享文章中我是给大家分享了运行部署hadoop的一些安装准备工作,这篇接上一篇继续为大家分享一些个人的学习经验总结。我学习用的是大快发行版DKHado...

903
IT小白龙

配置Hanlp自然语言处理进阶

中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种...

623
IT小白龙

DKHadoop安装的环境准备介绍

前几天去参加了一个线下的聚会,参加聚会的基本都是从事互联网工作的。会上有人提到了区块链,从而引发了一场关于大数据方面的探讨。我也是从去年才正式接触大数据,一直在...

832
IT小白龙

HanLP中人名识别分析详解

分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列)。结巴分词目前就是利用BMES标签来分词的,B(开头),M(中间),E(...

933
IT小白龙

人力资源数据可视化技术架构

大数据技术的应用正在潜移默化改变着我们的日常生活习惯和工作方式,很多看起来有点“不可思议”的事情也渐渐被我们“习以为常”。大数据可能在国内的起步较晚,但我们可能...

803
IT小白龙

HanLP二元核心词典详细解析

本文分析:HanLP版本1.5.3中二元核心词典的存储与查找。当词典文件没有被缓存时,会从文本文件CoreNatureDictionary.ngram.txt中...

695
IT小白龙

hadoop和spark的区别

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究...

30
IT小白龙

hanlp中文智能分词自动识别文字提取实例

需求:客户给销售员自己的个人信息,销售帮助客户下单,此过程需要销售人员手动复制粘贴收获地址,电话,姓名等等,一个智能的分词系统可以让销售人员一键识别以上各种信息

110
IT小白龙

Hanlp在java中文分词中的使用介绍

该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载

80
IT小白龙

Hadoop基础入门之发行版本的选择

经常会看到这样的问题:零基础学习hadoop难不难?有的人回答说:零基础学习hadoop,没有想象的那么难,也没有想象的那么容易。看到这样的答案不免觉得有些尴尬...

841
IT小白龙

自然语言处理怎么最快入门?

自然语言处理说白了,就是让机器去帮助我们完成一些语言层面的事情,典型的比如:情感分析、文本摘要、自动问答等等。我们日常场景中比较常见到的类似Siri、微软小冰之...

792
IT小白龙

互联网数据化运营基础应用之信息质量模型

信息质量模型在互联网行业和互联网数据化运营中也是有着广泛基础性应用的。具体来说,电商行业和电商平台连接买卖双方最直接、最关键的纽带就是海量的商品目录、商品Off...

842
IT小白龙

目前常用的自然语言处理开源项目/开发包大汇总

中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP...

872
IT小白龙

Python图像处理:图像腐蚀与图像膨胀

图像的膨胀(Dilation)和腐蚀(Erosion)是两种基本的形态学运算,主要用来寻找图像中的极大区域和极小区域。其中膨胀类似于“领域扩张”,将图像中的高亮...

952
IT小白龙

pyhanlp 文本聚类详细介绍

文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。

654
IT小白龙

大数据分析技术在新型智慧能源建设中的应用

智慧一概念已经提出很多年,这是一种全新的能源形式,包括符合生态文明和可持续发展要求的相关能源技术和能源制度体能源这系。智慧能源是以互联网技术为基础,以电力系统为...

902
IT小白龙

Spring Boot中对自然语言处理工具包hanlp的调用详解

HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构...

50

扫码关注云+社区