hadoop学习笔记

34 篇文章
16 人订阅

全部文章

IT小白龙

hadoop框架结构的说明介绍

近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增...

660
IT小白龙

MapReduce实现与自定义词典文件基于hanLP的中文分词详解

文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapredu...

712
IT小白龙

Hadoop的集群环境部署说明

Hadoop集群环境搭建是很多学习hadoop学习者或者是使用者都必然要面对的一个问题,网上关于hadoop集群环境搭建的博文教程也蛮多的。对于玩hadoop的...

662
IT小白龙

Hanlp等七种优秀的开源中文分词库推荐

中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。

874
IT小白龙

机器学习的趋势和人工智能的未来

每家公司现在是一个数据公司,在一定范围能够使用机器学习在云中部署智能应用程序,这归功于三个机器学习的趋势:数据飞轮,算法经济,和智能云托管。

541
IT小白龙

HanLP代码与词典分离方案与流程

之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来,

502
IT小白龙

Elasticsearch集成HanLP分词器

连接如下:https://gitee.com/hualongdata/hanlp-ext

610
IT小白龙

菜鸟如何使用hanlp做分词的过程记录

最近在学习hanlp的内容,准备在节后看看有没有时间整理一波hanlp分享下,应该还是会像之前分享DKHadoop一样的方式吧。把整个学习的过程中截图在配文字的...

774
IT小白龙

Hadoop应用案例分析:P2P借款人信用风险实时监控模型设计

一提到hadoop相信熟悉IT领域或者经常关注互联网新闻的朋友都应该很熟悉了,当然,这种熟悉可能也只是听着名字耳熟,但并不知道它具体是什么东西,或者用来做什么。...

60
IT小白龙

hanlp自然语言处理包的基本使用--python

hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。

100
IT小白龙

全文检索Solr集成HanLP中文分词

以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),...

1083
IT小白龙

学hadoop需要什么基础

最近一段时间一直在接触关于hadoop方面的内容,从刚接触时的一片空白,到现在也能够说清楚一些问题。这中间到底经历过什么只怕也就是只有经过的人才会体会到吧。前几...

621
IT小白龙

Hanlp自然语言处理工具的使用演练

Hanlp是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。Hanlp具备功能完善、性能高效、架构清洗、语料时新、可自定义的特点;提供...

1012
IT小白龙

hadoop不同版本有哪些

首次听到hadoop这次单词,相信很多人跟我当时是一样,不免心中画上一个大大的问号——这是什么东西?Hadoop是什么?百度百科的解释是:Hadoop是一个由A...

582
IT小白龙

hadoop发行版本之间的区别

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop的发行版除了有Apache h...

863
IT小白龙

Hadoop体系结构中的服务解决介绍

翻了一下最近一段时间写的分享,DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细,个人理解水平有限还...

924
IT小白龙

学习hadoop需要什么基础

“学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是—...

150
IT小白龙

Apache Shiro在web开发安全技术中的应用

前阶段就hadoop的分享了一些内容,希望对新手入门的朋友有点帮助吧!对于hadoop新手入门的,还是比较推荐大快搜索的DKHadoop发行版,三节点标准版还是...

1022
IT小白龙

分布式存储系统解决方案中的分离式与超融合部署

数据中心内部系统的核心要求是“稳定可靠”,一是指系统在运行过程中有能力提供连续可靠的服务,长时间无故障运行;二是指当故障发生之后,有能力快速定位,及时排查,故障...

470
IT小白龙

hadoop基础入门教程--DKHadoop配置安装教程

使用hadoop版本是DKH标准三节点发行版,DKHadoop版本的易用性比较好,环境部署要简单的多,参考此篇安装前请先下载DKHadoop版本,网盘链接:ht...

793

扫码关注云+社区