全栈设计师技术Wiki之Hadoop

Apache Hadoop :

Apache 开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目 ( HDFS ) 和支持 MapReduce 分布式计算的软件架构。

Hadoop 的核心是 HDFS MapReduce ,国人喜欢用 “ 分而治之 ” 来概括。

分而治之

出自《 群经平议·周官二 》“ 巫马下士二人医四人 ”:“ 凡邦之有疾病者,疕疡者造焉 ,则使医分而治之 ,是亦不自医也 。” 简单点可以理解为分别治理的意思。

这类似于设计思维中的分类思想,例如:

UX 中的用户画像,给用户打 TAG

UED 的设计语言,分解设计目标,为不同的子目标设定设计规则;也可以用于分解设计元素,制定每种元素的设计策略;

UI & 平面设计,针对配色、构图、字体样式等有不同的考究;

UX 设计,关注功能、布局、使用路径、信息架构等的优化;

建筑/景观设计,分别关注空间、材质、功能、视线等的体验;

Hadoop广泛应用于大数据中,用于处理数百 GBTB PB 的数据。利用 HDFS ,集群 N 台普通计算机( 如配置为硬盘 128 GB,内存 4 G ),形成一个硬盘为 N X 128 GB ,内存 N X 4 G 的 “ 大型 ” 计算机。Hadoop 在此扮演的是数据分发的角色,可以很方便的随时将原始数据的每一部分发送到群集中的多台计算机上进行保存,并计算。

计算的时候,使用 MapReduce 模型来将工作分成一组独立的任务来并行处理大量数据。

MapReduce 中,记录由被称为 Mappers 的任务隔离处理。然后将 Mappers 的输出结合到称为 Reducers 的第二组任务中,其中可以将来自不同映射器的结果合并在一起。

MapReduce 的例子——单词统计:

统计单词在不同文件中出现的次数。我们有2个文件:

foo.txt: Sweet, this is the foo file

bar.txt: This is the bar file

输出的结果应该是:

sweet 1

this  2

is    2

the   2

foo   1

bar   1

file  2

写成 MapReduce 的伪代码形式如下:

mapper (filename, file-contents):
  for each word in file-contents:
    emit (word, 1)
  
  
reducer (word, values):
  sum = 0
  for each value in values:
    sum = sum + value
  emit (word, sum)

Hadoop 不是数据库的替代品,而是一个计算框架,可以理解为就是个用于大数据的“计算器”。Hadoop 将数据存储在文件中,并且不会对它们编制索引。如果您想查找某些内容,则必须运行 MapReduce 作业以查看所有数据。这需要时间,并且意味着您不能直接使用 Hadoop 作为数据库的替代品。并且对于数据库的更新及更改数据的操作, Hadoop 都不支持。

这个时代保持自学的热情很重要,本文作为技术 Wiki 的开篇,后续将持续更新。

原文发布于微信公众号 - 科技Mix设计Lab(Design-AI-Lab)

原文发表时间:2018-03-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Spark学习技巧

干货 | 如何成为大数据Spark高手

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和...

3218
来自专栏华章科技

2分钟读懂大数据框架Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我...

844
来自专栏PPV课数据科学社区

【学习】2分钟读懂大数据框架Hadoop和Spark的异同

  谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,...

3545
来自专栏奇点大数据

我学习的Spark都在学些什么

---- 最近工作中,接触到最有用的“玩具”就是Spark了,在cpu密集型业务驱动下,提升CPU处理效率,高效的利用内存是最优先的事务,所以有个好的计算工具...

4655
来自专栏木东居士的专栏

聊一聊数据倾斜那些坑

2823
来自专栏CSDN技术头条

Hadoop、Hive、Spark 之间是什么关系?

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢...

1.2K8
来自专栏腾讯大数据的专栏

腾讯大数据之计算新贵Spark

前言 Spark作为Apache顶级的开源项目,项目主页见http://spark.apache.org。在迭代计算,交互式查询计算以及批量流计算方面都...

2379
来自专栏用户2442861的专栏

2分钟读懂大数据框架Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟...

1324
来自专栏CSDN技术头条

基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产...

2358
来自专栏包子铺里聊IT

5分钟深入 Hadoop 容错

通过之前几篇文章,我们对 Hadoop 的工作原理有了基本的了解,并且通过学习优化 Hadoop 性能,更深入的体会 Hadoop 处理数据的机制。今天我们聊聊...

28710

扫码关注云+社区

领取腾讯云代金券