开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

hadoop坚持“运行作业”

Hadoop是一个开源的分布式计算框架，旨在处理大规模数据集的存储和处理。它采用了分布式存储和计算的方式，可以在集群中的多台计算机上并行处理数据。

Hadoop的核心组件包括Hadoop分布式文件系统（HDFS）和Hadoop分布式计算框架（MapReduce）。HDFS是一个可靠且高容错性的分布式文件系统，用于存储大规模数据集。MapReduce是一种并行计算模型，用于将数据分割成小块并在集群中的多台计算机上进行处理。

Hadoop的优势包括：

可扩展性：Hadoop可以轻松地扩展到数千台服务器，处理大规模数据集。
容错性：Hadoop具有高度容错性，即使在某些节点发生故障时，数据仍然可以可靠地存储和处理。
成本效益：Hadoop是开源的，可以在廉价的硬件上运行，降低了成本。
处理多种数据类型：Hadoop可以处理结构化数据和非结构化数据，包括文本、图像、音频和视频等。
并行处理：Hadoop使用MapReduce模型进行并行处理，可以加快数据处理速度。

Hadoop的应用场景包括：

大数据分析：Hadoop适用于处理大规模数据集的分析任务，如数据挖掘、机器学习和统计分析等。
日志处理：Hadoop可以处理大量的日志数据，用于监控和故障排除。
图像和视频处理：Hadoop可以用于处理图像和视频数据，如图像识别、视频编码和视频分析等。
搜索引擎：Hadoop可以用于构建分布式搜索引擎，加快搜索速度和提高搜索结果的准确性。

腾讯云提供了一系列与Hadoop相关的产品和服务，包括云服务器、云存储、云数据库、云监控等。您可以访问腾讯云官方网站了解更多详情：腾讯云Hadoop产品介绍。

相关搜索:Apache Spark作业已完成，但hadoop作业仍在运行 Hadoop map reduce作业建模 Hadoop: spark作业无法处理小型数据集 Hadoop映射作业-list输出列名 Hadoop未运行任务 hadoop群集未运行map reduce作业-计划程序存在问题 Java Hadoop MapReduce链接作业 Luigi可以运行远程Hadoop作业吗？PHP:运行预定作业(cron作业)不使用Hadoop命令运行Hadoop Java代码

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

【Dr.Elephant中文文档-1】Dr. Elephant简介

Dr. Elephant是一个Hadoop和Spark的性能监控和调优工具。它能自动采集作业的度量指标并分析他，然后以简单明了的方式展现出来。Dr. Elephant的设计思想是通过作业分析结果来指导开发者进行作业调优，从而提升开发者效率和集群资源的利用率。Dr. Elephant使用了一组可配置的插件式启发算法来分析hadoop和spark作业并提供优化建议。然后针对结果数据来建议如何调整作业。这个算法还计算了作业的许多其他度量标准，用来为集群作业优化提供了有价值的参考信息。

04

【Hadoop】17-在集群上运行MapRedece

本地作业运行器使用单JVM运行一个作业，只要作业需要的所有类都在类路径(classpath)上，那么作业就可以正常执行。在分布式的环境中，情况稍微复杂一些。开始的时候作业的类必须打包成一个作业JAR文件并发送给集群。Hadoop通过搜索驱动程序的类路径自动找到该作业JAR文件，该类路径包含JonfConf或Job上的setJarByClass()方法中设置的类。另一种方法，如果你想通过文件路径设置一个指定的JAR文件，可以使用setJar()方法。JAR文件路径可以是本地的，也可以是一个HDFS文件路径。通过使用像Ant或Maven的构建工具可以方便地创建作业的JAR文件。当给定范例所示的POM时，下面的Maven命令将在包含所有已编译的类的工程目录中创建一个名为hadoop-example.jar的JAR文件：

04

0747-5.16.2-YARN日志聚合目录说明

日志聚合是YARN提供的日志集中化管理功能，它能将运行完成的Container任务日志上传到HDFS上，从而减轻NodeManager负载，且提供一个集中式存储和分析机制。默认情况下，Container任务日志存在在各个NodeManager上，如果启用日志聚集功能需要额外的配置。本文需要介绍的yarn.nodemanager.remote-app-log-dir配置是当应用程序运行结束后，日志被转移到的HDFS目录，默认是/tmp/logs。本文将模拟修改该目录，然后又将其修改回默认。

02

Hadoop jobhistory历史服务器介绍

Hadoop自带了一个历史服务器，可以通过历史服务器查看已经运行完的Mapreduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下，Hadoop历史服务器是没有启动的，我们可以通过下面的命令来启动Hadoop历史服务器

01

【上进小菜猪】使用Ambari提高Hadoop集群管理和开发效率:提高大数据应用部署和管理效率的利器

Hadoop是一种开源的分布式处理框架，用于在一组低成本硬件的集群上存储和处理大规模数据集。Ambari是一种基于Web的管理工具，用于轻松管理和监控Hadoop集群。在本文中，我们将探讨如何使用Ambari在Hadoop集群上运行应用程序，包括编写示例代码并将其部署到集群中。

02

Hadoop前世今生

本文从Hadoop（1.0）系统中调度策略的角度展开讨论。这本质还是对Hadoop的集群资源进行管理，主要有四个方面：

04

job监控与hadoop权限管理

监测Hadoop控制中心及作业运行状况 MapReduce框架由一个单独的Master JobTracker和集群节点上的Slave TaskTracker共同组成, 在Hadoop的JobClient提交作业和配置信息给JobTracker之后，JobTracker会负责分发这些软件和配置信息给slave及调度任务，并监控它们的执行，同时提供状态和诊断信息给JobClient。为了检测Hadoop控制中心及作业运行状况，需要先从JobClient端连接到Jetty服务器，然后通过JonConf来获得Jo

0499-如何使用潜水艇在Hadoop之上愉快的玩耍深度学习

Hadoop是时下最流行的企业级开源大数据平台技术，你可以将它部署在本地，也可以部署在云端。而深度学习，对于企业用户来说举几个简单的例子，常见的场景包括语音识别，图像分类，AI聊天机器人或者机器翻译。为了训练深度学习/机器学习模型，我们可以利用TensorFlow/MXNet/Pytorch/Caffe/XGBoost等框架。有时这些框架也会被一起使用用于解决不同的问题。

01

大规模 Hadoop 升级在 Pinterest 的实践

Monarch 是 Pinterest 的批处理平台，由30多个 Hadoop YARN 集群组成，其中17k+节点完全建立在 AWS EC2 之上。2021年初，Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支（特性和bug修复）的复杂性不断增加，我们决定是时候进行版本升级了。我们最终选择了Hadoop 2.10.0，这是当时 Hadoop 2 的最新版本。

02

Hadoop大数据初学者指南

Hadoop是一个开源框架，允许在分布式环境中使用简单的编程模型来存储和处理大数据，跨计算机集群。它被设计成可以从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。

03

Spark on YARN 部署实验

以前的Spark部署都是使用的standalone方式，集群中的每台机器都安装部署Spark，然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。一、实验目的 1. 只在一台机器上安装Spark，基于已有的Hadoop集群，使用YARN调度资源。 2. 不启动Master和Worker进程提交Spark作业。 3. 通过YARN的WebUI查看Spark作业的执行情况。二、实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode和ResourceManager进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode和NodeManager进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装Spark 只在192.168.56.101一台机器上上安装Spark，具体安装步骤参考 http://blog.csdn.net/wzy0623/article/details/50946766 四、配置步骤 1. 启动Hadoop集群 # 启动hdfs /home/grid/hadoop-2.7.2/sbin/start-dfs.sh # 启动yarn /home/grid/hadoop-2.7.2/sbin/start-yarn.sh 2. 将spark自带的与Hadoop集成的jar包上传到hdfs hadoop fs -put /home/grid/spark/lib/spark-assembly-1.5.0-hadoop2.6.0.jar /user/ 3. 编辑spark-defaults.conf文件，添加如下一行 spark.yarn.jar=hdfs://master:9000/user/spark-assembly-1.5.0-hadoop2.6.0.jar 修改后的spark-defaults.conf文件如图1所示

04

Hadoop 2.0中作业日志收集原理以及配置方法

Hadoop 2.0提供了跟1.0类似的作业日志收集组件，从一定程度上可认为直接重用了1.0的代码模块，考虑到YARN已经变为通用资源管理平台，因此，提供一个通用的日志收集模块势在必行，由于目前通用日志收集模块正在开发中（可参考“YARN-321”），本文仅介绍MRv2（MapReduce On YARN）自带的日志收集模块，包括工作原理以及配置方法。在Hadoop 2.0中，每个作业日志包含两部分，作业运行日志和任务运行日志，作业运行由MRAppMaster（MapReduce作业的Applicat

06

Hadoop大数据平台运维工程师须掌握的基本命令集分享

本博文收集和整理了在日常维护hadoop集群时运维工程师需要掌握的最基本的hadoop管理与维护的相关命令，在此分享出来供大家参考学习~博主也是刚刚接触hadoop不久，如有问题欢迎批评指正~非常感谢 1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help 2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name 3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output

09

MapReduce学习笔记

wordcount: 统计文件中每个单词出现的次数需求：1) 文件内容小：shell2）文件内容很大：TB GB ??? 如何解决大数据量的统计分析==> url TOPN <== wc 的延伸工作中

02

如何使用hadoop命令向CDH集群提交MapReduce作业

在前面文章Fayson讲过《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》，那对于部分用户来说，需要将打包好的jar包在CDH集群运行，可以使用hadoop或java命令向集群提交MR作业，本篇文章基于前面的文章讲述如何将打包好的MapReduce，使用hadoop命令向CDH提交作业。同时也分为Kerberos和非Kerberos环境提交。

06

【上进小菜猪】深入了解Hadoop：HDFS、MapReduce和Hive

在当今的大数据时代，数据的处理和分析已经成为企业发展的必要条件之一。Hadoop作为一种开源的大数据处理框架，已经成为后端大数据处理的重要工具之一。本文将介绍如何在后端使用Hadoop进行大数据处理，包括Hadoop的安装和配置以及如何使用Java编写MapReduce作业。

02

Apache Hadoop入门

介绍本文要介绍的Apache Hadoop是一个使用简单高级编程模型实现的对大型数据集进行分布式存储和处理的软件框架。文章涵盖了Hadoop最重要的概念，对其架构的描述，并指导如何使用它，以及在Hadoop上编写和执行各种应用程序。简而言之，Hadoop是Apache Software Foundation的开源项目，可以安装在一组标准机器上，以便这些机器可以通信并协同工作来存储和处理大型数据集。近年来，Hadoop已经非常成功，因为它有能力有效地处理大数据。它允许公司将其所有数据存储在一个系统中，并对

05

深入理解 Taier：MR on Yarn 的实现原理

我们今天常说的大数据技术，它的理论基础来自于2003年 Google 发表的三篇论文，《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》。这三篇论文分别对应后来出现的 HDFS，MapReduce， HBase。

02

【Hadoop研究】YARN：下一代 Hadoop计算平台

Apache Hadoop 是最流行的大数据处理工具之一。它多年来被许多公司成功部署在生产中。尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案，但大型开发人员社区仍在不断改进它。最终，2.0 版提供了多项革命性功能，其中包括 Yet Another Resource Negotiator (YARN)、HDFS Federation 和一个高度可用的 NameNode，它使得 Hadoop 集群更加高效、强大和可靠。在本文中，将对 YARN 与 Hadoop 中的分布式处理层的以前版本进行

06

Flink History Server

Flink有一个History Server，可以用来在相应的Flink集群关闭后查询已完成作业的统计信息。例如有个批处理作业是凌晨才运行的，并且我们都知道只有当作业处于运行中的状态，才能够查看到相关的日志信息和统计信息。所以如果作业由于异常退出或者处理结果有问题，我们又无法及时查看（凌晨运行的）作业的相关日志信息。那么History Server就显得十分重要了，因为通过History Server我们才能查询这些已完成作业的统计信息，无论是正常退出还是异常退出。

02

Hadoop专业解决方案-第3章：MapReduce处理数据

前言：非常感谢团队的努力，最新的章节终于有了成果，因为自己的懒惰，好久没有最新的进展了，感谢群里兄弟的努力。

05

进击大数据系列（六）：Hadoop 分布式计算框架 MapReduce

MapReduce 是一种编程模型（没有集群的概念，会把任务提交到 yarn 集群上跑），用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

01

Hadoop简单API的Web应用开发

最近写了个Web程序来调用Hadoop的api，对Hadoop自带的管理方式进行了二次开发，加强了可操作性。现在简单的介绍下功能和方法。Hadoop版本为1.xx

02

一脸懵逼学习MapReduce的原理和编程（Map局部处理，Reduce汇总）和MapReduce几种运行方式

Flink部署及作业提交（On YARN）

在上一篇 Flink部署及作业提交（On Flink Cluster）文章中，我们介绍了如何编译部署Flink自身的资源分配和管理系统，并将作业提交到该系统上去运行。但通常来讲这种方式用得不多，因为在企业中，可能会使用不同的分布式计算框架，如Spark、Storm或MapReduce等。

01

Hadoop常用命令

启动Hadoop 进入HADOOP_HOME目录。执行sh bin/start-all.sh 关闭Hadoop 进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容 hadoop dfs –ls [文件目录] eg: [hadoop@hadoop-1 test]$ hadoop fs -ls /gsw/rs 2、打开某个已存在文件 hadoop dfs –cat [file_path] eg:[hadoop@hadoop-1

03

京东万台规模Hadoop集群 | 分布式资源管理与作业调度

吴怡燃，京东大数据平台高级技术专家，擅长大数据平台的资源管理与调度系统的开发与建设。目前专注于以万台分布式调度系统及深度学习平台的开发与建设。

03

Spark on YARN基础

不管使用哪种模式，Spark应用程序的代码是一模一样的，只需要在提交的时候通过--master参数来指定我们的运行模式即可

02

内存中的 MapReduce 和 Hadoop 生态系统：第 1 章

本文的部分内容摘自《使用 Apache Ignite 进行内存高性能计算》一书。如果对此感兴趣，请查阅此书的其余部分以获取更多有用的信息。

06

Flink Standalone Cluster

Flink 支持使用多种部署模式来满足不同规模应用的需求，常见的有单机模式，Standalone Cluster 模式，同时 Flink 也支持部署在其他第三方平台上，如 YARN，Mesos，Docker，Kubernetes 等。以下主要介绍其单机模式和 Standalone Cluster 模式的部署。

03

使用Docker运行hadoop

获取docker镜像 sudo docker pull sequenceiq/hadoop-docker:2.7.0 运行docker容器 sudo docker run -it --name hadoop --rm sequenceiq/hadoop-docker:2.7.0 /etc/bootstrap.sh -bash 运行作业在上一步命令执行后，我们就进入命令交互模式 # 先看一下是否测试数据已经存在 $ bin/hdfs dfs -ls /user/root/input # 运行作业 $ bi

04

如何安装和设置3节点Hadoop集群

Hadoop是一个开源Apache项目，允许在大型数据集上创建并行处理应用程序，分布在网络节点上。它由处理节点间数据可扩展性和冗余的Hadoop分布式文件系统（HDFS™）和Hadoop YARN组成：用于在所有节点上执行数据处理任务的作业调度框架。

04

在Hadoop YARN群集之上安装，配置和运行Spark

Spark是一种通用的集群计算系统。它可以在从单个节点到数千个分布式节点的集群上部署和运行并行应用程序。Spark最初设计用于运行Scala应用程序，但也支持Java，Python和R.

03

【Dr.Elephant中文文档-4】开发者指南

为了在本地部署Dr.Elephant测试，你需要安装Hadoop(version 2.x)或者Spark(Yarn mode, version > 1.4.0)，以及资源管理服务和历史作业服务（可以用伪分布式）。关于伪分布式模式在 YARN 上运行 MapReduce 作业相关说明可以在这里(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html)[1]找到。

02

2021年大数据Flink（六）：Flink On Yarn模式

在实际开发中，使用Flink时，更多的使用方式是Flink On Yarn模式，原因如下：

02

将数据迁移到CDP 私有云基础的数据迁移用例

您可以使用 authzmigrator 工具将 Hive 对象和 URL 权限以及 Kafka 权限从 CDH 集群迁移到 CDP 私有云基础集群。您可以使用 DistCp 工具将 HDFS 数据从安全的 HDP 集群迁移到安全或不安全的CDP 私有云基础集群。

02

Hadoop的安装与配置——设置单节点群集

1、本系列以Ubuntu Linux作为开发和生产平台 2、Linux所需的软件包括：

05

大数据面试题（四）：Yarn核心高频面试题

Yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、storm程序，spark程序等。

09

大数据面试题（四）：Yarn核心高频面试题

Yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、storm程序，spark程序等。

01

HadoopDoctor——TDW MapReduce诊断系统

前言 TDW是基于Hadoop生态圈研发的大数据处理平台，MapReduce计算引擎在TDW平台中承担了所有的离线数据计算，是TDW最重要的底层支撑平台之一。在TDW 平台中，除了MR程序会生成MapReduce作业外，被广泛应用的Hive、tPig等计算框架最终也会把查询语言翻译成MapReduce作业来进行计算，因此对MapReduce作业运行信息进行收集并提供给开发人员查询分析，是他们定位业务问题的最重要手段。不仅仅如此，基于收集的MapReduce作业运行信息，还能建立众多的监控指标来对整个

09

Spark背景知识学习

这是来自Spark官网的描述(http://spark.apache.org/)。我们可以看到Spark是对大规模数据处理的一个统一分析引擎。有一种说法是：Spark给Hadoop这头大象插上了翅膀，足以看出Spark处理速度之快。Spark官网中，概括了Spark的几个特点：

01

分布式资源调度——YARN框架

YARN是Hadoop2.x才有的，所以在介绍YARN之前，我们先看一下MapReduce1.x时所存在的问题：

02

【Yarn】分布式资源管理框架Yarn

在Hadoop 1.x中，是没有Yarn这个分布式资源管理框架的，它在Hadoop 2.x中首次推出。它诞生的原因其实很简单，就是Hadoop 1.x中的架构存在一些问题。

02

Hive 大数据表性能调优

Hive表是一种依赖于结构化数据的大数据表。数据默认存储在 Hive 数据仓库中。为了将它存储在特定的位置，开发人员可以在创建表时使用 location 标记设置位置。Hive 遵循同样的 SQL 概念，如行、列和模式。

03

Hadoop02【架构分析】

Hadoop1.0即第一代Hadoop，指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop，内核主要由HDFS和MapReduce两个系统组成，其中MapReduce是一个离线处理框架，由编程模型（新旧API）、运行时环境（JobTracker和TaskTracker）和数据处理引擎（MapTask和ReduceTask）三部分组成。

07

Hadoop 面试，来看这篇就够了

原文链接 | http://www.jianshu.com/p/c97ff0ab5f49

02

如何通过Cloudera Manager配置Spark1和Spark2的运行环境

大部分用户在使用CDH集群做Spark开发的时候，由于开发环境的JDK版本比CDH集群默认使用的JDK1.7.0_67-cloudera版本新，可能会出现Spark代码依赖的Java API不兼容问题，解决这个问题方法有两个：一是升级CDH集群的JDK版本；二是指定Spark运行环境JDK版本。本文章主要讲述如何通过Cloudera Manager来指定Spark1和Spark2的运行环境（包含JDK环境、Spark Local Dir等的配置）。

07

Flink运行方式及对比

Flink on Yarn 中的 Per Job 模式是指每次提交一个任务，然后任务运行完成之后资源就会被释放。

05

hadoop中的一些概念——数据流

数据流　　首先定义一些属于。MapReduce作业（job）是客户端需要执行的一个工作单元:它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务（task）来执行，其中包括两类任务，map任务和reduce任务。　　有两类节点控制着作业执行过程，：一个jobtracker以及一系列tasktracker。jobtracker通过调度tasktracker上运行的任务，来协调所有运行在系统上的作业。tasktracker在运行任务的同时，将运行进度报告发送给jobtracker，jobtracker由此记录每项作业任务的整体进度情况。如果其中一个任务失败，jobtracker可以再另外衣tasktracker节点上重新调度该任务。　　Hadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片（input split）或简称分片。Hadoop为每个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条记录。　　拥有许多分片，意味着处理每个分片所需要的时间少于处理整个输入数据所花的时间。因此，如果我们并行处理每个分片，且每个分片数据比较小，那么整个处理过程将获得更好的负载平衡，因为一台较快的计算机能够处理的数据分片比一台较慢的计算机更多，且成一定比例。即使使用相同的机器，处理失败的作业或其他同时运行的作业也能够实现负载平衡，并且如果分片被切分的更细，负载平衡的质量会更好。　　另一方面，如果分片切分的太小，那么管理分片的总时间和构建map任务的总时间将决定着作业的整个执行时间。对于大多数作业来说，一个合理的分片大小趋向于HDFS的一个块的大小，默认是64MB，不过可以针对集群调整这个默认值，在新建所有文件或新建每个文件时具体致死那个即可。　　Hadoop在存储有输入数据（Hdfs中的数据）的节点上运行map任务，可以获得最佳性能。这就是所谓的数据本地化优化。现在我们应该清楚为什么最佳分片大小应该与块大小相同：因为它是确保可以存储在单个节点上的最大输入块的大小。如果分片跨越这两个数据块，那么对于任何一个HDFS节点，基本上不可能同时存储这两个数据块，因此分片中的部分数据需要通过网络传输到map任务节点。与使用本地数据运行整个map任务相比，这种方法显然效率更低。　　map任务将其输出写入本地硬盘，而非HDFS，这是为什么？因为map的输出是中间结果：该中间结果由reduce任务处理后才能产生最终输出结果，而且一旦作业完成，map的输出结果可以被删除。因此，如果把它存储在HDFS中并实现备份，难免有些小题大做。如果该节点上运行的map任务在将map中间结果传送给reduece任务之前失败，Hadoop将在另一个节点上重新运行这个map任务以再次构建map中间结果。　　reduce任务并不具备数据本地化的优势——单个reduce任务的输入通常来自于所有mapper的输出。在下面的李宗中，我们仅有一个reduce任务，其输入是所有map任务的输出。因此，排过序的map输出需要通过网络传输发送到运行reduce任务的节点。数据在reduce端合并，然后由用户定义的reduce函数处理。reduce的输出通常存储在HDFS中以实现可靠存储。对于每个reduce输出的HDFS块，第一个副本存储在本地节点上，其他副本存储在其他机架节点中。因此，reduce的输出写入HDFS确实需要占用网络带宽，但这与正常的HDFS流水线写入的消耗一样。　　一个reduce任务的完成数据流如下：虚线框表示节点，虚线箭头表示节点内部数据传输，实线箭头表示节点之间的数据传输。

02

《MapReduce使用》---大数据系列

一、MapReduce是什么？ MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。 MapReduce是一个并行计算与运行软件框架（Software Framework）。它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，将数据分布存储、数据通信、容错处理等并行计算涉及

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭