spark与mapreduce - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

在Spark中对DataFrame进行排序时，幕后会发生什么？

在Spark中对DataFrame进行排序时，幕后会发生什么？例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么，但是我很好奇当您排序时会发生什么与MapReduce相比有什么不同？

浏览 2提问于2018-08-14得票数 0

1回答

星火中的mapreduce参数

、、

我想知道mapreduce.*参数是否适用于星火。据我所知，在Spark中没有用于映射输出和约简任务的缓冲区，整个过程也是不同的。像mapreduce.task.io.sort.mb、mapreduce.reduce.shuffle.input.buffer.percent或mapreduce.reduce.input.buffer.percent可以肯定地说，这些mapreduce参数并不重要，我应该只关心火花。*参数，因为地图，洗牌和减少部分是不同的？

浏览 4提问于2015-12-04得票数 0

回答已采纳

1回答

具有以SparkSession实例开头的spark应用程序的链接紧缩spark管道

、

Crunch管道可以将Java spark context作为参数，但如果spark应用程序以SparkSession实例启动(因为spark Java程序包括数据集并需要sparkSQL)。在这种情况下，我如何在spark应用程序上添加另一个抽象层(Crunch pipeline)？

浏览 17提问于2017-03-15得票数 1

1回答

如果只有一个map reduce任务，map reduce会提供与spark相同的性能吗？

、、

大多数bigdata作业没有单独的mapreduce作业，因此spark通过将中间数据存储在内存中并避免在HDFS上进行复制来发挥作用。我的问题是，如果只有一个mapreduce作业，比如wordcount。mapreduce作业是否提供了与spark相同的性能？若否，原因为何？这可能是一个一般性的问题，但我正在尝试理解spark的深入架构。

浏览 2提问于2017-05-13得票数 0

1回答

在哪些类型的用例中，MapReduce优于Spark？

、、

我刚刚参加了一个关于Spark的入门课程，我问演讲者Spark是否可以完全取代MapReduce，他们告诉我Spark可以在任何用例中取代MapReduce，但在一些特殊的用例中，MapReduce实际上比Spark更快。MapReduce可以比Spark更快地解决用例的特征是什么？

浏览 0提问于2014-09-10得票数 2

2回答

为什么Spark将Map阶段输出保存到本地磁盘？

、、

我想了解下面的w.r.t到Hadoop MapReduce。 Hadoop、MapReduce和Spark的映射任务的输出有何不同？

浏览 6提问于2016-02-18得票数 8

1回答

谷歌云DataProc是否提供了一个带有默认JVM和YARN设置的网页？

、

作为Apache Hadoop on AWS Elastic-Map-Reduce (EMR)服务的前用户，我习惯于从静态页面here1获取有关EMR集群中各种大小的VM的默认部署设置的信息。这些设置包括JVM最大内存大小、YARN调度器最小/最大内存分配、映射和减少最大内存等。是否有类似的网页包含Google Cloud (GCP) DataProc服务的相应信息？我找过了，但找不到... 1

浏览 21提问于2019-01-31得票数 0

2回答

Spark SQL如何读取压缩的csv文件？

、、

我曾尝试使用spark.read.csv接口读取扩展名为bz或gzip的压缩csv文件。啊，真灵。但在源代码中，我找不到任何可以声明codec类型的选项参数。谁能告诉我或者给我显示spark 2.x版本如何处理压缩的csv文件的源代码的路径。

浏览 1提问于2017-06-28得票数 5

2回答

在哪些工作负载上使用MapReduce比SQL更有意义，反之亦然？

、、

似乎所有用SQL表达的查询都可以转换为MapReduce作业。这本质上就是Spark SQL所做的。SparkSQL接收SQL，将其转换为MapReduce作业，然后在Spark的运行时执行MapReduce作业。所有可以用SQL回答的问题都可以用MapReduce作业来回答。是否所有的MapReduce作业也可以写成SQL (可能有自定义的用户定义函数)？什么时候使用MapReduce比SQL更有意义，反之亦然？

浏览 28提问于2021-03-21得票数 2

1回答

有大量数据的内存处理引擎的好处是什么？

、、、

如果数据集适合内存，Spark的性能最好，如果数据集不合适，它将使用磁盘，因此它与hadoop一样快。让我们假设我正在处理Tera/Peta字节的数据。有一个小的星团。显然，没有办法把它放进记忆中。

浏览 3提问于2015-05-09得票数 1

回答已采纳

1回答

无法为twitter数据从星火外壳中创建一个表格

、、、

我能够将数据读取为： val df= hiveContext.read.json

浏览 0提问于2018-09-26得票数 0

1回答

火花纱内存配置

、

mapreduce.map.memory.mb (当前设置为0，因此假设采用默认值1GB，所以我们将其视为1.5GB，更改它也会影响数字)。mapreduce.reduce.memory.mb (当前设置为0，因此假设采用默认值1GB，所以我们将其视为1.5GB，更改它也会影响数字)。mapreduce.map.java.opts/mapreduce.reduce.java.opts设置为80%，形成前一个数字 yarn.scheduler.minimum-allocation-mb=1GB (当改变它时，我

浏览 1提问于2017-12-07得票数 3

回答已采纳

3回答

在Hadoop上使用MapReduce还是Spark进行批处理？

、、、

我知道MapReduce是一个在Hadoop上进行批处理的很好的框架。但是，Spark也可以用作Hadoop上的批处理框架，与MapReduce相比，它提供了可伸缩性、容错性和高性能。那么，我想知道在Hadoop上使用Spark作为批处理框架的当前挑战是什么？有什么想法吗？

浏览 2提问于2014-10-31得票数 5

1回答

Apache Spark与MapReduce

、、

我一直在查找Spark和MapReduce之间的区别，我真正发现的是Spark在内存和磁盘上运行，这使得它的速度大大加快。我还读到，MapReduce对于非常庞大的数据集更好，这仅仅是因为你可以将更多的数据加载到磁盘上而不是内存中？但想必，使用Spark，您无论如何都会在内存和磁盘之间移动数据，因此如果内存空间不足，您可以将一些数据移回磁盘，然后引入新数据进行处理。基本上，还有没有真正的理由继续使用MapReduce？

浏览 0提问于2018-05-02得票数 0

1回答

SparkException:作业2已取消，因为SparkContext已关闭，Spark Yarn正在处理大型数据集

、、、

-Xmx1664m2048-Xmx1664mmapred:mapreduce.map.java.optsmapred:mapreduce.map.memory.mbmapred:mapreduce.reduce.cpu.vcores2 mapred:<

浏览 0提问于2020-07-31得票数 1

1回答

Apache Spark中的惰性评估

、

我正在尝试理解Apache spark中的延迟计算。我的理解是：步骤：我的理解到这里是正确的吗？我这里的第二个问题是，它说它(懒惰评估)的原因之一是spark比Hadoop强大

浏览 2提问于2018-03-04得票数 1

3回答

火花和Hadoop有什么不同？

、

我正在努力学习星火框架。在其主页中，有人说它比Hadoop框架更好。但是他们说:火花运行在Hadoop..。我真的不明白为什么可以在Hadoop上运行，而它应该比Hadoop更好。

浏览 6提问于2017-10-22得票数 1

回答已采纳

2回答

在Spark中使用哪个设置来指定`Output`的压缩？

、、

因此，Spark有一个spark-defaults.xml文件，用于指定设置，包括使用哪个压缩编解码器以及在哪个阶段(RDD、Shuffle)。大多数设置都可以在应用程序级别进行设置。", "org.apache.hadoop.io.compress.snappy")选项2：spark.mapreduce.output.fil

浏览 4提问于2016-08-14得票数 3

1回答

配置单元执行引擎- Spark -无法创建spark客户端

、、

yarn.scheduler.minimum-allocation-mb - 128 mapreduce.framework.name- yarn mapreduce.reduce.memory.mb- 8192 mapreduce.map.j

浏览 1提问于2017-03-02得票数 0

1回答

Spark vs Hadoop用这个简单的例子？

、、

在谷歌上，Spark和Hadoop MapReduce之间的关键区别都体现在处理方法上: Spark可以在内存中完成，而Hadoop MapReduce必须从磁盘读取和写入。text.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_) 我的理解是：在Spark与函数map和reduce类似。我相信当处理跨分区发生时也是如此。在<e

浏览 27提问于2019-05-12得票数 0

回答已采纳

点击加载更多