spark与mapreduce - 腾讯云开发者社区

文章/答案/技术大牛

发布

MapReduce与Spark 对比

研究了一段时间，简单对比了二者不同点，也是Spark计算更有MapReduce的原因所在。...有一个误区，Spark 是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存， MapReduce也是如此，只不过 Spark 支持将需要反复用到的数据给 Cache 到内存中，减少数据加载耗时...，所以 Spark 跑机器学习算法比较在行（需要对数据进行反复迭代） 1，交换数据的方式 MR 多使用hdfs做数据交换，多节点会带来IO压力；Spark多是基于本地磁盘做数据交换。...2，执行单元： MR 的task的执行单元是进程，进程的创建销毁的开销较大；Spark的task执行单元是线程，开销较小。...6，资源申请粒度 MapReduce是每一个task去独自做资源申请，粒度较细，Spark是整体job来做资源申请，粒度较粗。

7353 0

Spark是什么？与MapReduce的对比

Spark主要解决计算的并行化，集群资源的管理与分配，容错与恢复，任务的分发与回收管理等问题。...Spark 与 MapReduce shuffle 对比 shuffle涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等，所以说Shuffle是整个应用程序运行过程中非常昂贵的一个阶段。...Spark主要解决计算的并行化，集群资源的管理与分配，容错与恢复，任务的分发与回收管理等问题。...Spark 与 MapReduce shuffle 对比 shuffle涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等，所以说Shuffle是整个应用程序运行过程中非常昂贵的一个阶段。...MapReduce适合处理类似与ETL的一遍处理的批任务，运行完Job进程立即终止，能与其他服务较好的共存。

9831 0

您找到你想要的搜索结果了吗？

是的

没有找到

大数据Spark（五十七）：Spark运行架构与MapReduce区别

Spark运行架构与MapReduce区别一、Spark运行架构 Master:Spark集群中资源管理主节点，负责管理Worker节点。...二、Spark与MapReduce区别 Apache Spark 和 Hadoop MapReduce 都是用于大规模数据处理的分布式计算框架，但它们在架构设计、数据处理方式和应用场景等方面存在显著差异...此外，Spark支持SQL处理批/流数据。 3) 任务调度 MapReduce：采用多进程模型，每个Task任务作为一个独立的JVM进程运行。...如果一个Application中有多个 MapReduce Job，每个Job独立申请和释放资源。 Spark：采用粗粒度资源调度。...6) 容错机制 MapReduce：通过将中间结果写入磁盘，实现任务失败后的重试和恢复。 Spark：采用 RDD 的血统（lineage）机制，记录数据集的生成过程。

2681 0

Spark：超越Hadoop MapReduce

Apache Spark 与 Hadoop 类似，数据分布式存储在服务器的集群或者是“节点”上。...图数据由顶点和边组成，在这里“节点”与顶点的意思相近。在集群计算方面，组成集群的物理机器也被称为“节点”。为避免混淆，我们称图的节点为顶点，这也是 Spark 中的专有名词。...Spark 使用简洁且表达力较好的 Scala 作为原生编程语言，写 Hadoop Map/Reduce 的 Java 代码行数与写 Spark 的 Scala 的代码行的数量比一般是 10:1。...MapReduce 是提供并行和分布式计算的 Hadoop 并行处理框架，如下图。（MapReduce 是被 Hadoop 和 Spark 都用到的一个数据处理范式。...Spark ：内存中的 MapReduce 处理我们来看另一个可选的分布式处理系统，构建在 Hadoop 基础之上的 Spark。

6582 0

Spark VS MapReduce 浅谈

.），也就是说 MR 和 Spark 是没有区别的。...Shuffle 我们都知道，不管是Spark 还是 MR，其理论依据都是一篇名为 MapReduce 的论文那么对于 Map 和 Reduce 两个阶段，其都是会产生 Shuffle 的，...那就是Spark的计算模型 DAG，下面我们以Spark的视角来看DAG的优势。...编程更简单方便因为DAG的存在，是的 Spark 编程比MR方便快捷，也更加的简单了，在我看来这也是从MR转Spark的一个非常重要的一点，谁也不会否认，用了Spark，真的不想再去编程...Shuffle的次数会更少，还是是因为任务都是在一个 Application 里面， Spark很容易可以根据任务流来进行Shuffle的规划，而MR则完全依赖于用户，这就导致MR的不可控

4502 0

详解MapReduce（Spark和MapReduce对比铺垫篇）

本来笔者是不打算写MapReduce的，但是考虑到目前很多公司还都在用这个计算引擎，以及后续要讲的Hive原生支持的计算引擎也是MapReduce，并且为Spark和MapReduce的对比做铺垫，笔者今天详细阐述一下...MapReduce。...MapReduce是Hadoop核心三剑客之一，设计思想来源于谷歌三篇论文之一的《分布式计算模型》。...笔者画了一张MapReduce处理的流程图，并以处理单词统计的例子作为示例： ?...对于MapReduce分布式缓存，很类似于Spark中的广播变量，后续讲到Spark广播变量和累计变量时再细说。

8646 0

MapReduce Shuffle 和 Spark Shuffle

Spark的Shuffle Spark的Shuffle是在MapReduce Shuffle基础上进行的调优。其实就是对排序、合并逻辑做了一些优化。...在Spark中Shuffle write相当于MapReduce 的map，Shuffle read相当于MapReduce 的reduce。...最后会将之前所有的临时磁盘文件都进行合并，由于一个task就只对应一个磁盘文件因此还会单独写一份索引文件，其中标识了下游各个task的数据在文件中的start offset与end offset。...而该机制与普通SortShuffleManager运行机制的不同在于：第一，磁盘写机制不同; 第二，不会进行排序。...Spark与MapReduce Shuffle的异同从整体功能上看，两者并没有大的差别。

3K2 3

Spark适用场景以及与Hadoop MapReduce优势对比

Spark与Hadoop MapReduce在业界有两种说法：一是 Spark 将代替 Hadoop MapReduce，成为未来大数据处理发展的方向；二是 Spark 将会和 Hadoop 结合，...其实 Spark 和 Hadoop MapReduce 的重点应用场合有所不同。...相对于 Hadoop MapReduce 来说，Spark 有点“青出于蓝”的感觉，Spark 是在Hadoop MapReduce 模型上发展起来的，在它的身上我们能明显看到 MapReduce的影子...，所有的 Spark 并非从头创新，而是站在了巨人“MapReduce”的肩膀上。...Spark 非常重视社区活动，组织也极为规范，会定期或不定期地举行与 Spark相关的会议。

4K3 0

Spark对比Hadoop MapReduce 的优势

与Hadoop MapReduce相比，Spark的优势如下： ❑ 中间结果：基于MapReduce的计算引擎通常将中间结果输出到磁盘上，以达到存储和容错的目的。...❑ 执行策略：MapReduce在数据Shuffle之前，需要花费大量时间来排序，而Spark不需要对所有情景都进行排序。由于采用了DAG的执行计划，每一次输出的中间结果都可以缓存在内存中。...❑ 任务调度的开销：MapReduce系统是为了处理长达数小时的批量作业而设计的，在某些极端情况下，提交任务的延迟非常高。...❑ 高速：基于内存的Spark计算速度大约是基于磁盘的Hadoop MapReduce的100倍。 ❑ 易用：相同的应用程序代码量一般比Hadoop MapReduce少50%～80%。...Spark自带了80多个算子，同时允许在Spark Shell环境下进行交互式计算，开发者可以像书写单机程序一样开发分布式程序，轻松利用Spark搭建大数据内存计算平台，并利用内存计算特性，实时处理海量数据

1.2K4 0

Spark和MapReduce任务计算模型

同时拿MapReduce和Spark计算模型做对比，强化对Spark和MapReduce理解】从整体上看，无论是Spark还是MapReduce都是多进程模型。...如，MapReduce是由很多MapTask、ReduceTask等进程级别的实例组成的；Spark是由多个worker、executor等进程级别实例组成。...但是当细分到具体的处理任务，MapReduce仍然是多进程级别，这一点在文章《详解MapReduce》已有说明。而Spark处理任务的单位task是运行在executor中的线程，是多线程级别的。...对于多线程模型的Spark正好与MapReduce相反，这也决定了Spark比较适合运行低延迟的任务。...相比较而言，MapReduce更有利于这种大任务的平稳运行。关联文章： Spark集群和任务执行详解MapReduce 重要 | Spark和MapReduce的对比

5822 0

重要 | Spark和MapReduce的对比

【前言：笔者将分两篇文章进行阐述Spark和MapReduce的对比，首篇侧重于"宏观"上的对比，更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点；次篇则从任务处理级别运用的并行机制方面上对比...，更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。...通过两篇文章的解读，希望帮助大家对Spark和MapReduce有一个更深入的了解，并且能够在遇到诸如"MapReduce相对于Spark的局限性？"...从上图可以看出Spark的运行速度明显比Hadoop（其实是跟MapReduce计算引擎对比）快上百倍！...MapReduce有很多优势，但并不代表Spark目前可以完全取代MapReduce。

6061 0

Spark Core——RDD何以替代Hadoop MapReduce？

RDD在Spark中占据"core"的地位 02 RDD为何快于MapReduce 看一个人，可以看看他的对手；了解一个产品，也可以看看他的竞品。...Spark是为了解决Hadoop中 MapReduce计算框架效率低下而产生的大数据计算引擎，所以Spark起初的竞争对手就是MapReduce。...MapReduce之所以计算效率低，主要原因在于每次计算都涉及从硬盘的数据读写问题，而Spark设计之初就考虑尽可能避免硬盘读写，所以Spark的第一大特点是数据优先存储于内存中（除非内存存储不够才放到硬盘中...至此，RDD的三类常用算子介绍如下： 1. transformation算子 map，接收一个函数作为参数，实现将RDD中的每个元素一对一映射生成另一个RDD，其实与Python中的原生map函数功能类似...filter，接收一个函数作为参数，实现将RDD中每个元素判断条件是否满足，进行执行过滤，与Python中的原生filter函数类似 flatMap，实际上包含了两个步骤，首先执行map功能，将RDD

9232 0

Spark和MapReduce相比，都有哪些优势？

在实际应用中，由于MapReduce在大量数据处理时存在高延迟的问题，导致Hadoop无力处理很多对时间有要求的场景，越来越多的公司开始采用Spark作为与计算大数据的核心技术。...Spark和MapReduce相比，都有哪些优势？一个最明显的优点就是性能的大规模提升。通俗一点说，我们可以将MapReduce理解为手工作坊式生产，每一个任务都是由作坊独立完成。...2014年10月，Spark完成了一个DaytonaGray类别的Sort Benchmark测试，排序完全是在磁盘上进行的，与Hadoop之前的测试的对比结果如表格所示： ?...一、Spark核心RDD Spark能够实现对MapReduce性能的直线超越，得益于Spark中一种名为RDD（Resilient Distributed DataSets）的数据处理模型。...最终Spark只需要读取和写入一次HDFS，这样就避免了Hadoop MapReduce的大IO操作。 ? 二、RDD容错机制计算环节增加之后，数据的容错机制就变得十分重要。

1.4K5 0

EMR(弹性MapReduce)入门之计算引擎Spark、Tez、MapReduce区别（八）

其他Spark的库都是构建在RDD和Spark Core之上的。 Spark SQL：提供通过Apache Hive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。...Application不能跨应用程序共享数据，除非将数据写入外部存储系统 Spark与资源管理器无关，只要能够获取executor进程，并能保持相互通信就可以了提交SparkContext的Client...在这上面可以运行MapReduce、Spark、Tez等计算框架。 MapReduce:是一种离线计算框架，将一个算法抽象成Map和Reduce两个阶段进行处理，非常适合数据密集型计算。...Spark:Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce...所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

3K0 0

协同过滤推荐算法在MapReduce与Spark上实现对比

本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比，相比于MapReduce，TDW Spark执行时间减少了66%，计算成本降低了40%。...推荐系统可以通过用户与信息之间的联系，一方面帮助用户获取有用的信息，另一方面又能让信息展现在对其感兴趣的用户面前，实现了信息提供商与用户的双赢。...基于Spark的实现方案相比与MapReduce编程模型，Spark提供了更加灵活的DAG（Directed Acyclic Graph）编程模型，不仅包含传统的map、reduce接口，还增加了...使用Spark编程接口实现上述的业务逻辑如图3所示。 ? 相对于MapReduce，Spark在以下方面优化了作业的执行时间和资源使用。 DAG编程模型。...通过Spark的DAG编程模型可以把七个MapReduce简化为一个Spark作业。Spark会把该作业自动切分为八个Stage，每个Stage包含多个可并行执行的Tasks。

1.5K6 0

大数据赛道上的单挑：MapReduce与Spark到底谁快？

通常人们认为Spark的性能和速度全面优于MapReduce，但最新的对决显示MapReduce在某些方面也有胜场，而且数据规模越大优势越大。 Apache Spark是当今最火爆的大数据处理框架。...通常人们认为Spark的性能和速度全面优于MapReduce，且更加容易使用，而且Spark已经拥有一个庞大的用户和贡献者社区，这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求...关于Spark和Mapreduce的性能PK已经在业界进行多次，不少人认为Spark仅仅是在内存计算环境比Mapreduce表现出色，但也有公司认为Spark全面压倒Mapreduce，例如2014年Spark...Spark Hadoop磁盘性能对比测试那么，Spark真的是全面超越MapReduce了吗？...但是在排序任务（Sort）方面，MapReduce的执行速度是Spark的两倍（两者的速度差异随着数据集规模的增加逐渐拉大，数据集越大，MapReduce的优势越明显，上图），因为MapReduce混编数据的执行模型比

8066 0

Spark 为什么比 MapReduce 快100倍？

通常我们认为 Spark 引擎是基于内存进行计算，无论如何，速度都是比 MapReduce 快，因为 MapReduce 需要频繁 Shuffle 。...内存计算与磁盘刷写 1.1 MapReduce 的 Shuffle 需要频繁 IO MapReduce 在 Shuffle 阶段，数据要经过环形缓冲区进行溢写，需要按键进行排序，以便相同键的数据可以被发送到同一个...1.2 Spark 计算走 IO 少 Spark 计算比 MapReduce 快的根本原因在于 DAG（有向无环图）计算模型。...因此 Spark 的任务创建开销相对较小，使得任务可以更快地启动和执行。而MapReduce 框架中创建和销毁进程的开销较大。...最后，Spark 一定比 MapReduce 快100倍吗？

6751 0

spark处理速度为什么比MapReduce快？

官网的这张图下边有一行字：Logistic regression in Hadoop and Spark 迭代场景下spark的处理速度大致是hadoop的100倍。

6191 0

重要 | Spark和MapReduce的对比以及选型

【前言：笔者将分两篇文章进行阐述Spark和MapReduce的对比，首篇侧重于"宏观"上的对比，更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点；次篇则从任务处理级别运用的并行机制方面上对比...，更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。...通过两篇文章的解读，希望帮助大家对Spark和MapReduce有一个更深入的了解，并且能够在遇到诸如"MapReduce相对于Spark的局限性？"...相信很多人在初学Spark时，认为Spark比MapReduce快的第一直观概念都是由此而来，甚至笔者发现网上有些资料更是直接照搬这个对比，给初学者造成一个很严重的误区。...MapReduce有很多优势，但并不代表Spark目前可以完全取代MapReduce。

1.6K4 1

MapReduce格式与类型

MapReduce Types 　　MapReduce是一个简单的数据处理模型，map与reduce的输入和输出类型都为key-value形式的键值对。...map: (K1, V1) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3) 　　一般来讲，map的输入key与输出value类型(K1,V1)不同于...public void write(KEYOUT key, VALUEOUT value) throws IOException, InterruptedException 　　Mapper与Reducer...combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3) 　　使用parition方法对中间结果的key与value...较小的文件与CombineFileInputFormat 　　Hadoop的作业适用于较大的文件，原因在于FileInputFormat是split整个文件还是split单个文件，如果文件太小（这里指的是小于

6851 0

点击加载更多

MapReduce与Spark 对比

Spark是什么？与MapReduce的对比

大数据Spark（五十七）：Spark运行架构与MapReduce区别

Spark：超越Hadoop MapReduce

Spark VS MapReduce 浅谈

详解MapReduce（Spark和MapReduce对比铺垫篇）

MapReduce Shuffle 和 Spark Shuffle

Spark适用场景以及与Hadoop MapReduce优势对比

Spark对比Hadoop MapReduce 的优势

Spark和MapReduce任务计算模型

重要 | Spark和MapReduce的对比

Spark Core——RDD何以替代Hadoop MapReduce？

Spark和MapReduce相比，都有哪些优势？

EMR(弹性MapReduce)入门之计算引擎Spark、Tez、MapReduce区别（八）

协同过滤推荐算法在MapReduce与Spark上实现对比

大数据赛道上的单挑：MapReduce与Spark到底谁快？

Spark 为什么比 MapReduce 快100倍？

spark处理速度为什么比MapReduce快？

重要 | Spark和MapReduce的对比以及选型

MapReduce格式与类型

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐