EdisonTalk-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

EdisonTalk

本专栏主要聚焦.NET Core, 微服务, DevOps, 智能制造及 MES/MOM 等内容，欢迎关注。

专栏成员

496

文章

444219

阅读量

58

订阅数

Hadoop学习笔记系列文章导航

hadoop 云计算 hbase 大数据 TDSQL MySQL 版

　　这是一个信息爆炸的时代。经过数十年的积累，很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一，怎样从累积的数据里寻找价值，变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据，如果求助于昂贵的专用主机甚至超级计算机，成本无疑很高，有时即使是保存数据，也需要面对高成本的问题，因为具有海量数据容量的存储设备，价格往往也是天文数字。成本和IT能力成为了海量数据分析的主要瓶颈。

2018-08-21

4600

Hadoop学习笔记—14.ZooKeeper环境搭建

hadoop zookeeper 安全分布式

从字面上来看，ZooKeeper表示动物园管理员，这是一个十分奇妙的名字，我们又想起了Hadoop生态系统中，许多项目的Logo都采用了动物，比如Hadoop采用了大象的形象，所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的。

2018-08-20

2890

Hadoop学习笔记—15.HBase框架学习（基础知识篇）

hadoop 文件存储存储数据库

HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型，它存储的是松散型数据。

2018-08-20

5030

Hadoop学习笔记—15.HBase框架学习（基础实践篇）

hadoop hbase zookeeper 人工智能

　　伪分布模式安装即在一台计算机上部署HBase的各个角色，HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。

2018-08-20

4170

Hadoop学习笔记—16.Pig框架学习

hadoop hive grunt http mapreduce

　　Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

2018-08-20

4510

Hadoop学习笔记—17.Hive框架学习

hadoop hive 存储 sql

　　Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

2018-08-20

5190

Hadoop学习笔记—18.Sqoop框架学习

hadoop 数据库大数据

　　Hadoop正成为企业用于大数据分析的最热门选择，但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程，云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流程，降低编写自定义数据加载脚本的需求。

2018-08-20

8270

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗

hadoop html access 人工智能

　　（1）历史数据约56GB，统计到2012-05-29。这也说明，在2012-05-29之前，日志文件都在一个文件里边，采用了追加写入的方式。

2018-08-20

1.5K0

Hadoop学习笔记—21.Hadoop2的改进内容简介

hadoop mapreduce

Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：

2018-08-20

5780

Hadoop学习笔记—3.Hadoop RPC机制的使用

rpc hadoop http java

　　（1）它允许一台计算机程序远程调用另外一台计算机的子程序，而不用去关心底层的网络通信细节，对我们来说是透明的。因此，它经常用于分布式网络通信中。

2018-08-20

9610

Hadoop学习笔记—12.MapReduce中的常见算法

hadoop mapreduce 编程算法大数据

　　　　"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。

2018-08-20

1.2K0

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

mapreduce eclipse ide hadoop http

开篇：Hadoop是一个强大的并行软件开发框架，它可以让任务在分布式集群上并行处理，从而提高执行效率。但是，它也有一些缺点，如编码、调试Hadoop程序的难度较大，这样的缺点直接导致开发人员入门门槛高，开发难度大。因此，Hadop的开发者为了降低Hadoop的难度，开发出了Hadoop Eclipse插件，它可以直接嵌入到Hadoop开发环境中，从而实现了开发环境的图形界面化，降低了编程的难度。

2018-08-20

1.7K0

Hadoop学习笔记—8.Combiner与自定义Combiner

hadoop mapreduce http

　　在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Map阶段总共五个步骤，如下图所示：

2018-08-20

6610

Hadoop学习笔记—11.MapReduce中的排序和分组

hadoop mapreduce http

　　从上图中可以清楚地看出，在Step1.4也就是第四步中，需要对不同分区中的数据进行排序和分组，默认情况下，是按照key进行排序和分组。

2018-08-20

7610

Hadoop学习笔记—2.不怕故障的海量存储：HDFS基础入门

hadoop 存储分布式

　　随着社会的进步，需要处理数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是却不方便管理和维护—>因此，迫切需要一种系统来管理多台机器上的文件，于是就产生了分布式文件管理系统，英文名成为DFS（Distributed File System）。

2018-08-20

6290

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态