腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

鸿的学习笔记

专栏作者

330

文章

280246

阅读量

49

订阅数

Hadoop 诞生的历史

mapreduce hadoop lucene/solr apache 编程算法

Hadoop 这个名称来源于一种已经灭绝的猛犸象，即 Yellow Hadoop。

2022-03-11

1.2K0

重新解读 MapReduce

windows 分布式 mapreduce 大数据数据库

在没有 MapReduce 编程模型的时候，做分布式系统的大数据量计算都是针对某一问题的开发特定的编程模型，写过代码的都知道这种的开发模式肯定推广不开来，后续的开发和维护都特别麻烦，但是当时也没人想着要弄一个通用的编程模型，直到后面谷歌发表了那篇著名的《MapReduce: Simplified Data Processing on Large Clusters》，大家突然发现原来在编程语言里面常用的编程模型可以用在分布式系统里，而且还能通用。

2021-08-12

2530

大数据技术发展简史（第一篇万字长文）

hadoop 开源 nosql mapreduce 云计算

在写这篇文章之前，断断续续地写过一些大数据组件的历史和它的一些评价，但是感觉不过瘾，历史本来就应该是连续的、有其内在的规律，便想写一篇文章总结大数据技术发展的历史，梳理其脉络，并试图找出其内在的规律，分享给大家。

2020-06-09

6.9K2

超越 MapReduce ，要比它更快！

网站 mapreduce 大数据 apache sql

前面介绍了大数据领域里的两个主流引擎：MapReduce 和 Spark 。它们开创了历史，使得世界进入了大数据时代，让很多公司能够处理庞大的数据，并从中找到更多的有价值的东西。所以，Hadoop 刚开始兴起时，大家都兴奋于我终于能够处理这么多数据了，到后面，Hive 被 Facebook 一群人写出来的时候，大家又不用写那么复杂的 MapReduce 程序了，回到了熟悉的 SQL 的怀抱。

2020-03-25

4260

趣谈交互式查询的历史之 Impala

mapreduce c++apache hive 网站

接着上篇文章继续聊聊交互式查询，交互式查询崛起的原因是人类的懒惰本质，自从谷歌发表了 Dremel 论文后，相似的计算引擎不断地出现，在这篇文章里，针对几种典型的计算引擎简单聊聊。

2020-03-25

9810

简单聊聊 Spark 的诞生史

spark mapreduce 数据库腾讯云开发者社区 sql

这篇文章是关于 Spark 的，说实话，我是很犹豫写这篇文章的，因为 Spark 在国内非常火，大牛不计其数并且相关的文章也数不胜数，要找准一个有趣的角度去畅抒 Spark 是很难的。

2020-03-12

1.1K0

聊聊 Hadoop 生态圈的历史之 Hive

hive hadoop mapreduce sql zookeeper

今天再聊聊 Hadoop 生态圈。话说前文已经提到了雅虎硬是用自己的业务把 Hadoop 搞出来了，最后也不知道什么原因把辛辛苦苦地弄出来的 Hadoop 给开源了。于是硅谷的一堆当时还在创业时，现在已经庞然大物的公司拥了上去，把 Hadoop 生态圈搞起来了。

2020-02-26

8140

瞎扯 Hadoop 的历史

hadoop mapreduce 开源大数据爬虫

在大数据领域里，Hadoop 是谁都绕不开的话题，它基本上已经成为了事实上的标准，无论是什么企业或者是个人，闭源开始开源，都不得不兼容Hadoop生态圈，即使是谷歌也不例外。虽然谷歌作为大数据领域的鼻祖，手握 GFS 、 MapReduce 和 BigTable 三篇论文（下文称为谷歌的“三驾马车”），秒杀Hadoop生态圈，但是在做谷歌云的时候依然不得不捏着鼻子兼容 Hbase 和 HDFS 的接口。因此，这篇文章就闲聊下 Hadoop 是如何发展壮大的。

2020-02-26

1.4K0

我所了解的大数据的历史（2）

mapreduce 存储数据库 sql 开源

接着说谷歌，上篇文章提到了 GFS 。那么谷歌为什么要硬着头皮去啃分布式系统这块硬骨头呢？首先，我们要知道谷歌刚开始成立时是一家搜索公司，方便用户查询互联网上的信息。因此谷歌必须要存储整个互联网上的信息，那这个数据量是庞大的。对于这个需求，传统的数据库或者更深入地说，单机是远远不够的，必须要使用分布式系统搭建集群；但是那个时候要搭建集群，可供选择的方案大多像 Oracle 的 RAC 一样，需要昂贵的机器。因此谷歌必须要自行去解决这个问题：

2020-02-18

3170

YARN--大数据的资源管理器

yarn node.js 容器 hadoop mapreduce

最初，Hadoop主要限于范例MapReduce，其中资源管理由JobTracker和TaskTacker完成。JobTracker将MapReduce任务传播到集群中的特定节点，理想情况下是具有数据的节点，或者至少位于同一机架中。TaskTracker是集群中从JobTracker接受任务（Map，Reduce和Shuffle操作）的节点。由于Hadoop已经超越了MapReudce（例如HBase，Storm等），Hadoop现在在架构上将资源管理功能与MapReduce的编程模型分离，这使Hadoop集群更通用。新的资源管理器称为MapReduce 2.0（MRv2）或YARN。现在MapReduce是在YARN容器中运行的一种应用程序，其他类型的应用程序可以一般地写在YARN上运行。

2018-08-06

1.1K0

hadoop系统概览（三）

大数据 hadoop mapreduce 分布式 apache

大数据不可避免地需要在计算机集群上进行分布式并行计算。因此，我们需要一个分布式数据操作系统来管理各种资源，数据和计算任务。今天，Apache Hadoop是现有的分布式数据操作系统。 Apache Hadoop是一个用于分布式存储的开源软件框架，以及商用硬件群集上的大数据的分布式处理。本质上，Hadoop由三部分组成：

2018-08-06

7200

spark的一些小总结

spark mapreduce hadoop 大数据

首先，DAG是MR的迭代模型。其中一个优点是，DAG可以做全局的优化，而Hadoop的MR没有意识到这点。

2018-08-06

3200

数据处理大数据 mapreduce

今天要聊的批处理，在前些年，有个忽悠人的外号，就是所谓的大数据。最经典的处理模式就是MapReduce，它起源于谷歌的《MapReduce:Simplified DataProcessing on Large Cluster》，初起风光，花式刷论文灌水，但是MapReduce饱受诟病，因为这是一个相当低层次的编程模型，类似于sql语句的group by。Hadoop的MapReduce作为一个逐渐走向没落的编程模型，我们学习更应该是其体现的理念，比如和Unix一样的，采用了统一的接口，对logic和wiring的分离。

2018-08-06

1.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态