首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏作者
330
文章
280246
阅读量
49
订阅数
Hadoop 诞生的历史
Hadoop 这个名称来源于一种已经灭绝的猛犸象,即 Yellow Hadoop。
哒呵呵
2022-03-11
1.2K0
重新解读 MapReduce
在没有 MapReduce 编程模型的时候,做分布式系统的大数据量计算都是针对某一问题的开发特定的编程模型,写过代码的都知道这种的开发模式肯定推广不开来,后续的开发和维护都特别麻烦,但是当时也没人想着要弄一个通用的编程模型,直到后面谷歌发表了那篇著名的《MapReduce: Simplified Data Processing on Large Clusters》,大家突然发现原来在编程语言里面常用的编程模型可以用在分布式系统里,而且还能通用。
哒呵呵
2021-08-12
2530
大数据技术发展简史(第一篇万字长文)
在写这篇文章之前,断断续续地写过一些大数据组件的历史和它的一些评价,但是感觉不过瘾,历史本来就应该是连续的、有其内在的规律,便想写一篇文章总结大数据技术发展的历史,梳理其脉络,并试图找出其内在的规律,分享给大家。
哒呵呵
2020-06-09
6.9K2
超越 MapReduce ,要比它更快!
前面介绍了大数据领域里的两个主流引擎:MapReduce 和 Spark 。它们开创了历史,使得世界进入了大数据时代,让很多公司能够处理庞大的数据,并从中找到更多的有价值的东西。所以,Hadoop 刚开始兴起时,大家都兴奋于我终于能够处理这么多数据了,到后面,Hive 被 Facebook 一群人写出来的时候,大家又不用写那么复杂的 MapReduce 程序了,回到了熟悉的 SQL 的怀抱。
哒呵呵
2020-03-25
4260
趣谈交互式查询的历史之 Impala
接着上篇文章继续聊聊交互式查询,交互式查询崛起的原因是人类的懒惰本质,自从谷歌发表了 Dremel 论文后,相似的计算引擎不断地出现,在这篇文章里,针对几种典型的计算引擎简单聊聊。
哒呵呵
2020-03-25
9810
简单聊聊 Spark 的诞生史
这篇文章是关于 Spark 的,说实话,我是很犹豫写这篇文章的,因为 Spark 在国内非常火,大牛不计其数并且相关的文章也数不胜数,要找准一个有趣的角度去畅抒 Spark 是很难的。
哒呵呵
2020-03-12
1.1K0
聊聊 Hadoop 生态圈的历史之 Hive
今天再聊聊 Hadoop 生态圈。话说前文已经提到了雅虎硬是用自己的业务把 Hadoop 搞出来了,最后也不知道什么原因把辛辛苦苦地弄出来的 Hadoop 给开源了。于是硅谷的一堆当时还在创业时,现在已经庞然大物的公司拥了上去,把 Hadoop 生态圈搞起来了。
哒呵呵
2020-02-26
8140
瞎扯 Hadoop 的历史
在大数据领域里,Hadoop 是谁都绕不开的话题,它基本上已经成为了事实上的标准,无论是什么企业或者是个人,闭源开始开源,都不得不兼容Hadoop生态圈,即使是谷歌也不例外。虽然谷歌作为大数据领域的鼻祖,手握 GFS 、 MapReduce 和 BigTable 三篇论文(下文称为谷歌的“三驾马车”),秒杀Hadoop生态圈,但是在做谷歌云的时候依然不得不捏着鼻子兼容 Hbase 和 HDFS 的接口。因此,这篇文章就闲聊下 Hadoop 是如何发展壮大的。
哒呵呵
2020-02-26
1.4K0
我所了解的大数据的历史(2)
接着说谷歌,上篇文章提到了 GFS 。那么谷歌为什么要硬着头皮去啃分布式系统这块硬骨头呢?首先,我们要知道谷歌刚开始成立时是一家搜索公司,方便用户查询互联网上的信息。因此谷歌必须要存储整个互联网上的信息,那这个数据量是庞大的。对于这个需求,传统的数据库或者更深入地说,单机是远远不够的,必须要使用分布式系统搭建集群;但是那个时候要搭建集群,可供选择的方案大多像 Oracle 的 RAC 一样,需要昂贵的机器。因此谷歌必须要自行去解决这个问题:
哒呵呵
2020-02-18
3170
YARN--大数据的资源管理器
最初,Hadoop主要限于范例MapReduce,其中资源管理由JobTracker和TaskTacker完成。JobTracker将MapReduce任务传播到集群中的特定节点,理想情况下是具有数据的节点,或者至少位于同一机架中。TaskTracker是集群中从JobTracker接受任务(Map,Reduce和Shuffle操作)的节点。由于Hadoop已经超越了MapReudce(例如HBase,Storm等),Hadoop现在在架构上将资源管理功能与MapReduce的编程模型分离,这使Hadoop集群更通用。新的资源管理器称为MapReduce 2.0(MRv2)或YARN。现在MapReduce是在YARN容器中运行的一种应用程序,其他类型的应用程序可以一般地写在YARN上运行。
哒呵呵
2018-08-06
1.1K0
hadoop系统概览(三)
大数据不可避免地需要在计算机集群上进行分布式并行计算。因此,我们需要一个分布式数据操作系统来管理各种资源,数据和计算任务。今天,Apache Hadoop是现有的分布式数据操作系统。 Apache Hadoop是一个用于分布式存储的开源软件框架,以及商用硬件群集上的大数据的分布式处理。本质上,Hadoop由三部分组成:
哒呵呵
2018-08-06
7200
spark的一些小总结
首先,DAG是MR的迭代模型。其中一个优点是,DAG可以做全局的优化,而Hadoop的MR没有意识到这点。
哒呵呵
2018-08-06
3200
批处理
今天要聊的批处理,在前些年,有个忽悠人的外号,就是所谓的大数据。最经典的处理模式就是MapReduce,它起源于谷歌的《MapReduce:Simplified DataProcessing on Large Cluster》,初起风光,花式刷论文灌水,但是MapReduce饱受诟病,因为这是一个相当低层次的编程模型,类似于sql语句的group by。Hadoop的MapReduce作为一个逐渐走向没落的编程模型,我们学习更应该是其体现的理念,比如和Unix一样的,采用了统一的接口,对logic和wiring的分离。
哒呵呵
2018-08-06
1.5K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档