腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
默认
情况下
,
spark
上
的
persist
()
存储
到
内存
还是
磁盘
?
database
、
apache-spark
我知道,在
spark
上
,您可以更改
persist
()以将数据
存储
到
内存
或
磁盘
,但我想知道缺省值是什么。我试着搜索这个,但没有得到一个明确
的
答案。
浏览 2
提问于2017-06-03
得票数 3
回答已采纳
1
回答
Spark
如何处理超出其容量
的
内存
apache-spark
假设我
的
Spark
集群有100G
内存
,在
Spark
计算过程中,会生成更多大小为200G
的
数据(新数据帧、缓存)。在这种
情况下
,
Spark
会将部分数据
存储
在
磁盘
上,
还是
只会使用OOM
浏览 235
提问于2020-07-14
得票数 0
回答已采纳
2
回答
当文件不能放入
spark
的
主
内存
时,
spark
如何读取大文件(‘s)
apache-spark
、
rdd
、
partition
在这些
情况下
,大文件会发生什么情况? 1)
Spark
从NameNode获取数据
的
位置。
Spark
是否会在同一时间停止,因为根据来自NameNode
的
信息,数据大小太长?2)
Spark
根据datanode块大小对数据进行分区,但不能将所有数据
存储
到
主存中。这里我们不使用StorageLevel。那么这里会发生什么呢?3)
Spark
做数据分区,有些数据会
存储
在主存中,一旦这个主存中
的
数据被重新处理
浏览 0
提问于2017-10-09
得票数 30
回答已采纳
1
回答
Spark
流不会持久化信息
hadoop
、
apache-spark
、
bigdata
、
real-time
、
spark-streaming
我已经创建了一个类似于wordcount
的
Spark
流脚本。优点是,我希望将所有信息
存储
在一个集合(addedRDD)中,但过了一段时间后,由于块消失了,一个异常被启动。有没有办法将这个累积
的
RDD保存在
内存
中?import org.apache.
spark
._import scala.collection.mutableval wordCounts = pairs.reduce
浏览 2
提问于2017-10-26
得票数 0
1
回答
spark
会自动溢出到
磁盘
吗?
apache-spark
我有一个由10个节点组成
的
集群,每个节点都有244 1TB
内存
和1TB
内存
。如果我有一个500GBx10
的
数据集,
spark
是否会自动
默认
为
磁盘
溢出,或者我是否必须调用
persist
和
默认
存储
级别为MEMORY_AND_DISK?
浏览 86
提问于2019-10-02
得票数 0
1
回答
Intermediate rdd与rdd.
persist
()
的
区别
python
、
apache-spark
、
rdd
我知道当
Spark
处理中有几个阶段时,中间阶段rdd会一直
存储
到
作业完成,但读到缓存()和持久化()
的
用法时,我感觉它们也在做同样
的
事情(除了可以使用
的
MEMORY_AND_DISK、MEMORY_ONLY有人能告诉我们为什么我们在使用中间rdd时显式地使用cache()和
persist
()吗?你能给出这两者
的
一些用例吗?
浏览 0
提问于2020-06-06
得票数 0
2
回答
在Apache中,RDD方法
的
默认
持久化级别是持久化()和缓存()
python-2.7
、
apache-spark
、
persistence
1.在Python中,cache()
的
默认
持久性级别是多少?MEMORY_ONLYMEMORY_AND_DISK2.根据“学习火花”一书,
persist
()
默认
的
持久化水平MEMORY_ONLY_SER是正确
的
吗?
浏览 1
提问于2018-09-26
得票数 0
回答已采纳
6
回答
缓存和持久化有什么区别?
apache-spark
、
distributed-computing
、
rdd
在RDD持久化方面,cache()和
persist
()在
spark
上有什么不同?
浏览 3
提问于2014-11-12
得票数 223
1
回答
使用没有createOrReplaceTempView
的
SQL进行星火数据选择
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
、
pyspark-dataframes
我想在
Spark
df
上
执行类似SQL
的
语法。假设我需要计算一下[1]临时广播:df =
spark
.sql("select *, 113.4*col1 +41.4*AS cal_col from df_view") 问:广播一个大
的
df是否有很大
的
开销?如果是
浏览 5
提问于2020-03-31
得票数 0
回答已采纳
1
回答
当使用Mongo火花连接器时,我如何从星火中
的
Mongo分离?
mongodb
、
scala
、
apache-spark
mongoData.createOrReplaceTempView("myNewView") 我在myNewView
上
做了很多处理,在一个循环中尝试不同
的
计算。当它启动时,我可以看到我
的
单上帝进程在CPU利用率
上
急剧上升。我怎样才能做到这样,当我处理数据时,它就不会一直回到蒙古族了?我需要对数据做大量
的
计算,并且不想对我
的
Mongo实例进行分析。
浏览 0
提问于2018-08-21
得票数 0
回答已采纳
1
回答
df.SaveAsTable和
spark
.sql之间
的
差异(创建表.)
scala
、
apache-spark
、
hive
、
pyspark
、
apache-spark-sql
);
spark
.sql("create table mytable as select * frommy_temp_table"); 在这种
情况下
,表
存储
在
内存
中,在这种
情况下
物理
存储
在
磁盘
上?而且,根据我
的
理解,createOrReplaceTempView只注册数据(已经在
内存<
浏览 1
提问于2019-04-15
得票数 10
回答已采纳
2
回答
当中间输出不适合火花中
的
RAM时会发生什么
hadoop
、
apache-spark
、
rdd
我刚开始学习
Spark
。根据我
的
理解,
Spark
将中间输出
存储
在
内存
中,因此与Hadoop相比速度非常快。如果我错了,请纠正我。我
的
问题是,如果我
的
中间输出是2GB,空闲RAM是1GB,那么在这种
情况下
会发生什么呢?这也许是个愚蠢
的
问题,但我还没有理解火花在记忆中
的
概念.有人能解释一下火花在记忆中
的
概念吗? 谢谢
浏览 5
提问于2015-10-18
得票数 5
回答已采纳
2
回答
哪个
内存
部分用于计算不会被持久化
的
RDD
apache-spark
、
shuffle
、
rdd
我对火花很陌生,我知道
Spark
将执行器
内存
划分为以下几个部分:洗牌和聚合缓冲区:,火花用来
存储
洗牌输出。如果洗牌输出超过此分数,火花将泄漏数据
到
磁盘
(
默认
0.2) 用户代码:火花使用此部分执行任意用户代码(
浏览 0
提问于2015-07-19
得票数 6
2
回答
在
Spark
中,"RDDs可以
存储
在
内存
中“是什么意思?
mapreduce
、
apache-spark
在
Spark
的
介绍中,它说据我所知,您必须使用.cache()或.
persist
().If手动缓存RDD。sc.textFile("hdfs://data/kv1.txt") file.count() 我没有将RDD“文件”保存在缓存或
磁盘
中,在这种
情况下
,
Spark
能比MapReduce运行得更快吗?
浏览 1
提问于2014-09-10
得票数 4
2
回答
如何使星火使用来自Parquet文件
的
分区信息?
python-3.x
、
apache-spark
、
pyspark
、
parquet
如果我计算并持久化这些分区,
Spark
就会使用它们。如果我将分区数据保存到Parquet并在以后重新加载它,分区信息就会消失,
Spark
将重新计算它。有人知道我做错了什么吗?..or,如果这是火花可以做
的
事情?pyspark.sql import SQLContext from pyspark.sql.types imp
浏览 3
提问于2016-02-11
得票数 1
回答已采纳
1
回答
当
存储
级别设置为
磁盘
时,
Spark
将数据
存储
在哪里?
scala
、
hadoop
、
apache-spark
、
bigdata
、
hadoop-yarn
我想知道当
存储
级别设置为DISK_ONLY或MEMORY_AND_DISK时,
Spark
在哪个目录中
存储
数据(在这种
情况下
,数据不能放入
内存
)。因为我看到,我设置哪个级别并没有区别。在我使用
的
集群中,/tmp目录是一个
内存
磁盘
,因此大小受到限制。
Spark
是否正在尝试将
磁盘
级数据
存储
到
该驱动器?也许,这就是为什么我看不到区别的原因。如果确实是这样,我该如何更改此
默
浏览 0
提问于2015-09-17
得票数 5
1
回答
数据帧大小持续增长,尽管其数量没有增长
apache-spark
、
spark-dataframe
我需要些帮助我
的
程序使用
spark
2.0.1在local6
上
运行def main(args: Array[String]): Unit = { val df1 = initia
浏览 2
提问于2016-11-16
得票数 1
1
回答
Spark
中
的
shuffle write
存储
在哪里?
apache-spark
根据
Spark
我
的
问题是,随机写入发生在哪里?在写入时,整个数据是否仅在本地
磁盘
上进行混洗?或者只在RAM
内存
中写入要混洗
的
全部数据?或者基于RAM
的
可用性,它是否将要混洗
的
数据
的
一部分写入
磁盘
,将某些部分写入RAM? 请解释一下
浏览 0
提问于2020-04-17
得票数 1
1
回答
在上调用`cache‘是否消除了以后对Hive/HDFS
的
调用?
apache-spark
、
hadoop
、
hdfs
我们有一个
spark
应用程序,它从
存储
在HDFS中
的
parquet文件
上
构建
的
HMS表中读取使用
spark
的
数据。
spark
应用程序运行在单独
的
hadoop环境
上
。由于委托令牌过期,经过一段时间后,我们
的
spark
应用程序将不再能够进行身份验证,如果它没有在令牌有效
的
时间范围内完成,则会失败。我
的
问题是这个。如果我在执行所有后续操作所针对
浏览 7
提问于2022-01-10
得票数 0
2
回答
如何使用RDD持久化和缓存?
java
、
apache-spark
、
spark-streaming
请告诉我如何使用RDD方法--持久化()和Cache(),它似乎适用于我通常用java编写
的
常规程序,比如sparkStreaming,它是DAG
的
持续执行,每次更新RDD
的
值,因此perist/cache但是,如下面的文档所示,这些方法似乎只对交互式shell有用,或者与仅在任何引用变量中
存储
所需
的
RDD相比,我是否可以更有效地使用顺序程序中
的
缓存/持久化RDD。scala> linesWithSpark.cache() res7:
spark</em
浏览 4
提问于2015-06-23
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券