腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
Spark
中对DataFrame进行排序时,幕后会发生什么?
在
Spark
中对DataFrame进行排序时,幕后会发生什么?例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么,但是我很好奇当您排序时会发生什么
与
MapReduce
相比有什么不同?
浏览 2
提问于2018-08-14
得票数 0
1
回答
星火中的
mapreduce
参数
、
、
我想知道
mapreduce
.*参数是否适用于星火。 据我所知,在
Spark
中没有用于映射输出和约简任务的缓冲区,整个过程也是不同的。像
mapreduce
.task.io.sort.mb、
mapreduce
.reduce.shuffle.input.buffer.percent或
mapreduce
.reduce.input.buffer.percent可以肯定地说,这些
mapreduce
参数并不重要,我应该只关心火花。*参数,因为地图,洗牌和减少部分是不同的?
浏览 4
提问于2015-12-04
得票数 0
回答已采纳
1
回答
具有以SparkSession实例开头的
spark
应用程序的链接紧缩
spark
管道
、
Crunch管道可以将Java
spark
context作为参数,但如果
spark
应用程序以SparkSession实例启动(因为
spark
Java程序包括数据集并需要sparkSQL)。在这种情况下,我如何在
spark
应用程序上添加另一个抽象层(Crunch pipeline)?
浏览 17
提问于2017-03-15
得票数 1
1
回答
如果只有一个map reduce任务,map reduce会提供
与
spark
相同的性能吗?
、
、
大多数bigdata作业没有单独的
mapreduce
作业,因此
spark
通过将中间数据存储在内存中并避免在HDFS上进行复制来发挥作用。我的问题是,如果只有一个
mapreduce
作业,比如wordcount。
mapreduce
作业是否提供了
与
spark
相同的性能?若否,原因为何?这可能是一个一般性的问题,但我正在尝试理解
spark
的深入架构。
浏览 2
提问于2017-05-13
得票数 0
1
回答
在哪些类型的用例中,
MapReduce
优于
Spark
?
、
、
我刚刚参加了一个关于
Spark
的入门课程,我问演讲者
Spark
是否可以完全取代
MapReduce
,他们告诉我
Spark
可以在任何用例中取代
MapReduce
,但在一些特殊的用例中,
MapReduce
实际上比
Spark
更快。
MapReduce
可以比
Spark
更快地解决用例的特征是什么?
浏览 0
提问于2014-09-10
得票数 2
2
回答
为什么
Spark
将Map阶段输出保存到本地磁盘?
、
、
我想了解下面的w.r.t到Hadoop
MapReduce
。 Hadoop、
MapReduce
和
Spark
的映射任务的输出有何不同?
浏览 6
提问于2016-02-18
得票数 8
1
回答
谷歌云DataProc是否提供了一个带有默认JVM和YARN设置的网页?
、
作为Apache Hadoop on AWS Elastic-Map-Reduce (EMR)服务的前用户,我习惯于从静态页面here1获取有关EMR集群中各种大小的VM的默认部署设置的信息。这些设置包括JVM最大内存大小、YARN调度器最小/最大内存分配、映射和减少最大内存等。 是否有类似的网页包含Google Cloud (GCP) DataProc服务的相应信息?我找过了,但找不到... 1
浏览 21
提问于2019-01-31
得票数 0
2
回答
Spark
SQL如何读取压缩的csv文件?
、
、
我曾尝试使用
spark
.read.csv接口读取扩展名为bz或gzip的压缩csv文件。啊,真灵。但在源代码中,我找不到任何可以声明codec类型的选项参数。谁能告诉我或者给我显示
spark
2.x版本如何处理压缩的csv文件的源代码的路径。
浏览 1
提问于2017-06-28
得票数 5
2
回答
在哪些工作负载上使用
MapReduce
比SQL更有意义,反之亦然?
、
、
似乎所有用SQL表达的查询都可以转换为
MapReduce
作业。这本质上就是
Spark
SQL所做的。SparkSQL接收SQL,将其转换为
MapReduce
作业,然后在
Spark
的运行时执行
MapReduce
作业。 所有可以用SQL回答的问题都可以用
MapReduce
作业来回答。是否所有的
MapReduce
作业也可以写成SQL (可能有自定义的用户定义函数)?什么时候使用
MapReduce
比SQL更有意义,反之亦然?
浏览 28
提问于2021-03-21
得票数 2
1
回答
有大量数据的内存处理引擎的好处是什么?
、
、
、
如果数据集适合内存,
Spark
的性能最好,如果数据集不合适,它将使用磁盘,因此它与hadoop一样快。让我们假设我正在处理Tera/Peta字节的数据。有一个小的星团。显然,没有办法把它放进记忆中。
浏览 3
提问于2015-05-09
得票数 1
回答已采纳
1
回答
无法为twitter数据从星火外壳中创建一个表格
、
、
、
我能够将数据读取为: val df= hiveContext.read.json
浏览 0
提问于2018-09-26
得票数 0
1
回答
火花纱内存配置
、
mapreduce
.map.memory.mb (当前设置为0,因此假设采用默认值1GB,所以我们将其视为1.5GB,更改它也会影响数字)。
mapreduce
.reduce.memory.mb (当前设置为0,因此假设采用默认值1GB,所以我们将其视为1.5GB,更改它也会影响数字)。
mapreduce
.map.java.opts/
mapreduce
.reduce.java.opts设置为80%,形成前一个数字 yarn.scheduler.minimum-allocation-mb=1GB (当改变它时,我
浏览 1
提问于2017-12-07
得票数 3
回答已采纳
3
回答
在Hadoop上使用
MapReduce
还是
Spark
进行批处理?
、
、
、
我知道
MapReduce
是一个在Hadoop上进行批处理的很好的框架。但是,
Spark
也可以用作Hadoop上的批处理框架,
与
MapReduce
相比,它提供了可伸缩性、容错性和高性能。那么,我想知道在Hadoop上使用
Spark
作为批处理框架的当前挑战是什么? 有什么想法吗?
浏览 2
提问于2014-10-31
得票数 5
1
回答
Apache
Spark
与
MapReduce
、
、
我一直在查找
Spark
和
MapReduce
之间的区别,我真正发现的是
Spark
在内存和磁盘上运行,这使得它的速度大大加快。我还读到,
MapReduce
对于非常庞大的数据集更好,这仅仅是因为你可以将更多的数据加载到磁盘上而不是内存中?但想必,使用
Spark
,您无论如何都会在内存和磁盘之间移动数据,因此如果内存空间不足,您可以将一些数据移回磁盘,然后引入新数据进行处理。 基本上,还有没有真正的理由继续使用
MapReduce
?
浏览 0
提问于2018-05-02
得票数 0
1
回答
SparkException:作业2已取消,因为SparkContext已关闭,
Spark
Yarn正在处理大型数据集
、
、
、
-Xmx1664m2048-Xmx1664mmapred:
mapreduce
.map.java.optsmapred:
mapreduce
.map.memory.mbmapred:
mapreduce
.reduce.cpu.vcores2 mapred:<
浏览 0
提问于2020-07-31
得票数 1
1
回答
Apache
Spark
中的惰性评估
、
我正在尝试理解Apache
spark
中的延迟计算。我的理解是:步骤:我的理解到这里是正确的吗?我这里的第二个问题是,它说它(懒惰评估)的原因之一是
spark
比Hadoop强大
浏览 2
提问于2018-03-04
得票数 1
3
回答
火花和Hadoop有什么不同?
、
我正在努力学习星火框架。在其主页中,有人说它比Hadoop框架更好。但是他们说:火花运行在Hadoop..。我真的不明白为什么可以在Hadoop上运行,而它应该比Hadoop更好。
浏览 6
提问于2017-10-22
得票数 1
回答已采纳
2
回答
在
Spark
中使用哪个设置来指定`Output`的压缩?
、
、
因此,
Spark
有一个
spark
-defaults.xml文件,用于指定设置,包括使用哪个压缩编解码器以及在哪个阶段(RDD、Shuffle)。大多数设置都可以在应用程序级别进行设置。", "org.apache.hadoop.io.compress.snappy")选项2:
spark
.
mapreduce
.output.fil
浏览 4
提问于2016-08-14
得票数 3
1
回答
配置单元执行引擎-
Spark
-无法创建
spark
客户端
、
、
yarn.scheduler.minimum-allocation-mb - 128
mapreduce
.framework.name- yarn
mapreduce
.reduce.memory.mb- 8192
mapreduce
.map.j
浏览 1
提问于2017-03-02
得票数 0
1
回答
Spark
vs Hadoop用这个简单的例子?
、
、
在谷歌上,
Spark
和Hadoop
MapReduce
之间的关键区别都体现在处理方法上:
Spark
可以在内存中完成,而Hadoop
MapReduce
必须从磁盘读取和写入。text.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_) 我的理解是: 在
Spark
与
函数map和reduce类似。我相信当处理跨分区发生时也是如此。在<e
浏览 27
提问于2019-05-12
得票数 0
回答已采纳
点击加载更多
相关
资讯
如何将MapReduce转化为Spark
走进大数据 MapReduce于spark的对比
MapReduce设计与实现
Spark的数据处理模型是什么,它与传统MapReduce有何不同?
深入理解与应用Hadoop中的MapReduce
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券