腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Spark
中对DataFrame进行排序时,幕后会发生什么?
apache-spark
在
Spark
中对DataFrame进行排序时,幕后会发生什么?例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么,但是我很好奇当您排序时会发生什么
与
MapReduce
相比有什么不同?
浏览 2
提问于2018-08-14
得票数 0
1
回答
星火中的
mapreduce
参数
hadoop
、
apache-spark
、
hadoop-yarn
我想知道
mapreduce
.*参数是否适用于星火。 据我所知,在
Spark
中没有用于映射输出和约简任务的缓冲区,整个过程也是不同的。像
mapreduce
.task.io.sort.mb、
mapreduce
.reduce.shuffle.input.buffer.percent或
mapreduce
.reduce.input.buffer.percent可以肯定地说,这些
mapreduce
参数并不重要,我应该只关心火花。*参数,因为地图,洗牌和减少部分是不同的?
浏览 4
提问于2015-12-04
得票数 0
回答已采纳
1
回答
具有以SparkSession实例开头的
spark
应用程序的链接紧缩
spark
管道
apache-spark
、
apache-crunch
Crunch管道可以将Java
spark
context作为参数,但如果
spark
应用程序以SparkSession实例启动(因为
spark
Java程序包括数据集并需要sparkSQL)。在这种情况下,我如何在
spark
应用程序上添加另一个抽象层(Crunch pipeline)?
浏览 17
提问于2017-03-15
得票数 1
1
回答
如果只有一个map reduce任务,map reduce会提供
与
spark
相同的性能吗?
apache-spark
、
mapreduce
、
bigdata
大多数bigdata作业没有单独的
mapreduce
作业,因此
spark
通过将中间数据存储在内存中并避免在HDFS上进行复制来发挥作用。我的问题是,如果只有一个
mapreduce
作业,比如wordcount。
mapreduce
作业是否提供了
与
spark
相同的性能?若否,原因为何?这可能是一个一般性的问题,但我正在尝试理解
spark
的深入架构。
浏览 2
提问于2017-05-13
得票数 0
1
回答
在哪些类型的用例中,
MapReduce
优于
Spark
?
hadoop
、
mapreduce
、
apache-spark
我刚刚参加了一个关于
Spark
的入门课程,我问演讲者
Spark
是否可以完全取代
MapReduce
,他们告诉我
Spark
可以在任何用例中取代
MapReduce
,但在一些特殊的用例中,
MapReduce
实际上比
Spark
更快。
MapReduce
可以比
Spark
更快地解决用例的特征是什么?
浏览 0
提问于2014-09-10
得票数 2
2
回答
为什么
Spark
将Map阶段输出保存到本地磁盘?
apache-spark
、
mapreduce
、
rdd
我想了解下面的w.r.t到Hadoop
MapReduce
。 Hadoop、
MapReduce
和
Spark
的映射任务的输出有何不同?
浏览 6
提问于2016-02-18
得票数 8
1
回答
谷歌云DataProc是否提供了一个带有默认JVM和YARN设置的网页?
google-cloud-platform
、
google-cloud-dataproc
作为Apache Hadoop on AWS Elastic-Map-Reduce (EMR)服务的前用户,我习惯于从静态页面here1获取有关EMR集群中各种大小的VM的默认部署设置的信息。这些设置包括JVM最大内存大小、YARN调度器最小/最大内存分配、映射和减少最大内存等。 是否有类似的网页包含Google Cloud (GCP) DataProc服务的相应信息?我找过了,但找不到... 1
浏览 21
提问于2019-01-31
得票数 0
2
回答
Spark
SQL如何读取压缩的csv文件?
csv
、
apache-spark
、
apache-spark-sql
我曾尝试使用
spark
.read.csv接口读取扩展名为bz或gzip的压缩csv文件。啊,真灵。但在源代码中,我找不到任何可以声明codec类型的选项参数。谁能告诉我或者给我显示
spark
2.x版本如何处理压缩的csv文件的源代码的路径。
浏览 1
提问于2017-06-28
得票数 5
2
回答
在哪些工作负载上使用
MapReduce
比SQL更有意义,反之亦然?
sql
、
mapreduce
、
bigdata
似乎所有用SQL表达的查询都可以转换为
MapReduce
作业。这本质上就是
Spark
SQL所做的。SparkSQL接收SQL,将其转换为
MapReduce
作业,然后在
Spark
的运行时执行
MapReduce
作业。 所有可以用SQL回答的问题都可以用
MapReduce
作业来回答。是否所有的
MapReduce
作业也可以写成SQL (可能有自定义的用户定义函数)?什么时候使用
MapReduce
比SQL更有意义,反之亦然?
浏览 28
提问于2021-03-21
得票数 2
1
回答
有大量数据的内存处理引擎的好处是什么?
hadoop
、
apache-spark
、
bigdata
、
batch-processing
如果数据集适合内存,
Spark
的性能最好,如果数据集不合适,它将使用磁盘,因此它与hadoop一样快。让我们假设我正在处理Tera/Peta字节的数据。有一个小的星团。显然,没有办法把它放进记忆中。
浏览 3
提问于2015-05-09
得票数 1
回答已采纳
1
回答
无法为twitter数据从星火外壳中创建一个表格
apache-spark
、
hadoop
、
hive
、
apache-spark-sql
我能够将数据读取为: val df= hiveContext.read.json
浏览 0
提问于2018-09-26
得票数 0
1
回答
火花纱内存配置
apache-spark
、
hadoop-yarn
mapreduce
.map.memory.mb (当前设置为0,因此假设采用默认值1GB,所以我们将其视为1.5GB,更改它也会影响数字)。
mapreduce
.reduce.memory.mb (当前设置为0,因此假设采用默认值1GB,所以我们将其视为1.5GB,更改它也会影响数字)。
mapreduce
.map.java.opts/
mapreduce
.reduce.java.opts设置为80%,形成前一个数字 yarn.scheduler.minimum-allocation-mb=1GB (当改变它时,我
浏览 1
提问于2017-12-07
得票数 3
回答已采纳
3
回答
在Hadoop上使用
MapReduce
还是
Spark
进行批处理?
hadoop
、
mapreduce
、
batch-processing
、
apache-spark
我知道
MapReduce
是一个在Hadoop上进行批处理的很好的框架。但是,
Spark
也可以用作Hadoop上的批处理框架,
与
MapReduce
相比,它提供了可伸缩性、容错性和高性能。那么,我想知道在Hadoop上使用
Spark
作为批处理框架的当前挑战是什么? 有什么想法吗?
浏览 2
提问于2014-10-31
得票数 5
1
回答
Apache
Spark
与
MapReduce
apache-spark
、
hadoop
、
mapreduce
我一直在查找
Spark
和
MapReduce
之间的区别,我真正发现的是
Spark
在内存和磁盘上运行,这使得它的速度大大加快。我还读到,
MapReduce
对于非常庞大的数据集更好,这仅仅是因为你可以将更多的数据加载到磁盘上而不是内存中?但想必,使用
Spark
,您无论如何都会在内存和磁盘之间移动数据,因此如果内存空间不足,您可以将一些数据移回磁盘,然后引入新数据进行处理。 基本上,还有没有真正的理由继续使用
MapReduce
?
浏览 0
提问于2018-05-02
得票数 0
1
回答
SparkException:作业2已取消,因为SparkContext已关闭,
Spark
Yarn正在处理大型数据集
apache-spark
、
pyspark
、
hadoop-yarn
、
google-cloud-dataproc
-Xmx1664m2048-Xmx1664mmapred:
mapreduce
.map.java.optsmapred:
mapreduce
.map.memory.mbmapred:
mapreduce
.reduce.cpu.vcores2 mapred:<
浏览 0
提问于2020-07-31
得票数 1
1
回答
Apache
Spark
中的惰性评估
hadoop
、
apache-spark
我正在尝试理解Apache
spark
中的延迟计算。我的理解是:步骤:我的理解到这里是正确的吗?我这里的第二个问题是,它说它(懒惰评估)的原因之一是
spark
比Hadoop强大
浏览 2
提问于2018-03-04
得票数 1
3
回答
火花和Hadoop有什么不同?
hadoop
、
apache-spark
我正在努力学习星火框架。在其主页中,有人说它比Hadoop框架更好。但是他们说:火花运行在Hadoop..。我真的不明白为什么可以在Hadoop上运行,而它应该比Hadoop更好。
浏览 6
提问于2017-10-22
得票数 1
回答已采纳
2
回答
在
Spark
中使用哪个设置来指定`Output`的压缩?
hadoop
、
apache-spark
、
hadoop-plugins
因此,
Spark
有一个
spark
-defaults.xml文件,用于指定设置,包括使用哪个压缩编解码器以及在哪个阶段(RDD、Shuffle)。大多数设置都可以在应用程序级别进行设置。", "org.apache.hadoop.io.compress.snappy")选项2:
spark
.
mapreduce
.output.fil
浏览 4
提问于2016-08-14
得票数 3
1
回答
配置单元执行引擎-
Spark
-无法创建
spark
客户端
apache-spark
、
hive
、
hadoop-yarn
yarn.scheduler.minimum-allocation-mb - 128
mapreduce
.framework.name- yarn
mapreduce
.reduce.memory.mb- 8192
mapreduce
.map.j
浏览 1
提问于2017-03-02
得票数 0
1
回答
Spark
vs Hadoop用这个简单的例子?
apache-spark
、
hadoop
、
mapreduce
在谷歌上,
Spark
和Hadoop
MapReduce
之间的关键区别都体现在处理方法上:
Spark
可以在内存中完成,而Hadoop
MapReduce
必须从磁盘读取和写入。text.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_) 我的理解是: 在
Spark
与
函数map和reduce类似。我相信当处理跨分区发生时也是如此。在<e
浏览 27
提问于2019-05-12
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop MapReduce与Apache Spark
如何将MapReduce转化为Spark
走进大数据 MapReduce于spark的对比
MapReduce设计与实现
MapReduce之任务执行与作业调度
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券