前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >全栈设计师技术Wiki之Hadoop

全栈设计师技术Wiki之Hadoop

作者头像
mixlab
发布2018-04-17 16:01:22
6630
发布2018-04-17 16:01:22
举报

Apache Hadoop :

Apache 开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目 ( HDFS ) 和支持 MapReduce 分布式计算的软件架构。

Hadoop 的核心是 HDFS MapReduce ,国人喜欢用 “ 分而治之 ” 来概括。

分而治之

出自《 群经平议·周官二 》“ 巫马下士二人医四人 ”:“ 凡邦之有疾病者,疕疡者造焉 ,则使医分而治之 ,是亦不自医也 。” 简单点可以理解为分别治理的意思。

这类似于设计思维中的分类思想,例如:

UX 中的用户画像,给用户打 TAG

UED 的设计语言,分解设计目标,为不同的子目标设定设计规则;也可以用于分解设计元素,制定每种元素的设计策略;

UI & 平面设计,针对配色、构图、字体样式等有不同的考究;

UX 设计,关注功能、布局、使用路径、信息架构等的优化;

建筑/景观设计,分别关注空间、材质、功能、视线等的体验;

Hadoop广泛应用于大数据中,用于处理数百 GBTB PB 的数据。利用 HDFS ,集群 N 台普通计算机( 如配置为硬盘 128 GB,内存 4 G ),形成一个硬盘为 N X 128 GB ,内存 N X 4 G 的 “ 大型 ” 计算机。Hadoop 在此扮演的是数据分发的角色,可以很方便的随时将原始数据的每一部分发送到群集中的多台计算机上进行保存,并计算。

计算的时候,使用 MapReduce 模型来将工作分成一组独立的任务来并行处理大量数据。

MapReduce 中,记录由被称为 Mappers 的任务隔离处理。然后将 Mappers 的输出结合到称为 Reducers 的第二组任务中,其中可以将来自不同映射器的结果合并在一起。

MapReduce 的例子——单词统计:

统计单词在不同文件中出现的次数。我们有2个文件:

foo.txt: Sweet, this is the foo file

bar.txt: This is the bar file

输出的结果应该是:

代码语言:javascript
复制
sweet 1

this  2

is    2

the   2

foo   1

bar   1

file  2

写成 MapReduce 的伪代码形式如下:

代码语言:javascript
复制
mapper (filename, file-contents):
  for each word in file-contents:
    emit (word, 1)
  
  
reducer (word, values):
  sum = 0
  for each value in values:
    sum = sum + value
  emit (word, sum)

Hadoop 不是数据库的替代品,而是一个计算框架,可以理解为就是个用于大数据的“计算器”。Hadoop 将数据存储在文件中,并且不会对它们编制索引。如果您想查找某些内容,则必须运行 MapReduce 作业以查看所有数据。这需要时间,并且意味着您不能直接使用 Hadoop 作为数据库的替代品。并且对于数据库的更新及更改数据的操作, Hadoop 都不支持。

这个时代保持自学的热情很重要,本文作为技术 Wiki 的开篇,后续将持续更新。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科技Mix设计Lab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云 HDFS
云 HDFS(Cloud HDFS,CHDFS)为您提供标准 HDFS 访问协议,您无需更改现有代码,即可使用高可用、高可靠、多维度安全、分层命名空间的分布式文件系统。 只需几分钟,您就可以在云端创建和挂载 CHDFS,来实现您大数据存储需求。随着业务需求的变化,您可以实时扩展或缩减存储资源,CHDFS 存储空间无上限,满足您海量大数据存储与分析业务需求。此外,通过 CHDFS,您可以实现计算与存储分离,极大发挥计算资源灵活性,同时实现存储数据永久保存,降低您大数据分析资源成本。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档