腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
Spark
列出
所有
缓存
的
RDD
名称
并
取消
持久
化
、
、
、
、
我是Apache
Spark
的
新手,我创建了几个
RDD
和DataFrames,
并
缓存
了它们,现在我想使用下面的命令
取消
它们中
的
一些 rddName.unpersist() 但我记不住他们
的
名字。我使用了sc.getPersistentRDDs,但输出不包括
名称
。我还使用浏览器查看了
缓存
的
rdd
,但同样没有
名称
信息。我是不是漏掉了什么?
浏览 86
提问于2016-07-21
得票数 7
回答已采纳
1
回答
星星之火
RDD
生命周期:是否将
RDD
回收到范围之外
、
在一个方法中,我创建了一个新
的
RDD
,
并
对它进行
缓存
,在
RDD
超出作用域之后,
Spark
是否会自动
取消
rdd
的
持久
化
? 我是这么想
的
,但到底发生了什么?
浏览 0
提问于2015-04-23
得票数 3
回答已采纳
1
回答
如何计算
缓存
中特定RDDs
的
大小?
我经常处理因超过记忆限制而被纱线杀死
的
容器。我怀疑这与以低效方式
缓存
/
取消
RDDS/Dataframes有关。 调试这类问题
的
最佳方法是什么?我看过
Spark
中
的
“存储”选项卡,但是"
RDD
名称
“没有比"MapPartitionsRDD”或"UnionRDD“更具有描述性。如何确定哪些特定
的
RDD
占用
缓存
中
的
最大空间?为了找出内存不
浏览 2
提问于2017-11-20
得票数 0
回答已采纳
2
回答
火花
RDD
-分区总是在RAM中吗?
、
、
、
、
如果我从HDFS中在我
的
RDD
外壳中创建了10个pySpark,这是否意味着
所有
这10个
RDD
的
数据都将驻留在
Spark
内存中? 如果我不删除
RDD
,它会永远存在于记忆中吗?如果我
的
数据集(文件)大小超过可用RAM大小,数据将存储在哪里?
浏览 5
提问于2016-11-22
得票数 21
回答已采纳
1
回答
Spark
-如何将
持久
化
数据从磁盘移动到
缓存
?
在进行即席数据分析时,我遇到了一个非常简单但令人沮丧
的
模式: 您将
rdd
1
缓存
在内存中,然后将
rdd
2
缓存
在内存中,由于内存限制,这会将
rdd
1逐出到磁盘。如果你要
取消
持久
化
rdd
2,有没有什么办法让
spark
把
rdd
1移回内存呢?
浏览 0
提问于2020-04-10
得票数 0
3
回答
Java Apache
Spark
:长
的
转换链导致二次时间
、
我有一个使用Apache
Spark
的
Java程序。该程序最有趣
的
部分如下所示: .AnnotatedDocument> ll = annotated.collect();} 因此,实际上,行(**)会生成一个
RDD
我
的</e
浏览 1
提问于2016-03-21
得票数 6
2
回答
取消
RDD
持久
化
是如何导致RPC超时
的
?
、
我
缓存
了一个非常大
的
RDD
(它仍然可以放在内存中),但是因为它太大了,所以我想尽快
取消
它。:135) at org.apache.
spark
.
rdd
.
RDD
.unpersistThis timeout is controlled by
spark
.rpc.ask
浏览 0
提问于2017-11-22
得票数 5
1
回答
RDDs在
spark
中能持续多久?
、
、
、
我已经写了一个程序,在其中我将
RDD
持久
化
到
spark
stream中,这样一旦新
的
RDD
来自
spark
stream,我就可以将以前
缓存
的
RDD
与新
的
RDD
连接起来。有没有办法为这个
持久
化
的
RDDs设置生存时间,这样我就可以确保我不会加入我在上一个流周期中已经得到
的
RDDs。另外,如果有人能解释
并</
浏览 1
提问于2015-07-15
得票数 1
1
回答
在
Spark
streaming微批处理结束时,内存
持久
化
RDD
是否是不
持久
的
?
、
、
我使用
Spark
2.0.2(在DSE / DataStaX企业版5.1中)来运行一些流媒体应用。我
的
Spark
streaming应用程序为每个微批处理调用了一些
RDD
.persist(),而
RDD
.unpersist()从未被调用过(到目前为止,我们依靠
缓存
空间
的
LRU功能来解除
持久
化
)。我想我会在
Spark
UI
的
"Storage“选项卡中看到
持久
化
浏览 0
提问于2019-07-05
得票数 0
1
回答
Spark
和非
持久
化
catalog.clearCache
、
、
我是
spark
的
新手,正在寻找一个完全清除
缓存
的
选项。in-memory cache 另一方面,我也可以这样做 persistentRDDs.forEach((k,v) -> { v.unpersist(); // will unpersist all the
RDD
's}); 现在,我试图找到
并
理解
的
是,哪一个会是更好
的
选择,为什么?我相信
取消
持久
化
<em
浏览 202
提问于2020-11-21
得票数 2
2
回答
通过设置STORAGE_LEVEL来进行复制分区有什么好处
、
、
通过设置MEMORY_ONLY_2、MEMORY_AND_DISK_2等存储级别来进行复制分区有什么好处?
浏览 0
提问于2018-10-04
得票数 1
1
回答
为什么默认
的
持久
化
()会将数据作为非序列
化
对象存储在JVM堆中?
、
、
、
、
我正在学习Apache,
并
试图清除与
Spark
中RDDs
的
缓存
和
持久
性相关
的
概念。 为了避免多次计算
RDD
,我们可以要求
Spark
将数据
持久
化
。当我们要求
Spark
持久
化
一个
RDD
时,计算
RDD
的
节点会存储它们
的
分区。火花有
浏览 0
提问于2017-12-08
得票数 2
回答已采纳
4
回答
如何在PySpark中删除
RDD
以释放资源?
、
、
如果我有一个不再需要
的
RDD
,如何将其从内存中删除?要做到这一点,以下内容是否足够:谢谢!
浏览 1
提问于2015-01-17
得票数 24
1
回答
Rdd
持久
性如何支持容错
、
我想了解
spark
的
rdd
持久
性是如何帮助容错
的
。 假设我
的
集群中有3个节点,即N1、N2、N3。我以
Rdd
1->
Rdd
2->
Rdd
3
的
形式执行
spark
任务(转换映射)。我已经
持久
化了
rdd
2(在
rdd
3计数上它是第一次成功)。在
持久
化
方面,假设它有6个分区,我
的
每个节点都有2个
浏览 0
提问于2018-01-31
得票数 1
2
回答
读取多个文件时,火花驱动程序内存不足
、
、
、
我
的
程序是这样工作
的
: 如果我在上面提到
的
文件组中只有一个文件而不是60个文件,那么
浏览 1
提问于2018-07-09
得票数 0
2
回答
当
Spark
意识到
RDD
不再被使用时,它会
取消
RDD
本身
的
持久
化
吗?
、
、
、
当我们想不止一次使用
RDD
时,我们可以将它
持久
化
到内存和/或磁盘中。但是,我们以后是否必须自己
取消
它,或者当不再需要
RDD
时,火花是否会进行某种类型
的
垃圾收集和不
持久
化
?我注意到,如果我自己调用非
持久
化
函数,性能就会变慢。
浏览 2
提问于2015-09-17
得票数 32
回答已采纳
3
回答
RDD
的
缓存
什么时候过期?
、
我们在
RDD
上使用.cache()对数据集进行
持久
缓存
,我关心
的
是
缓存
何时过期?dt.cache()
浏览 0
提问于2016-05-10
得票数 11
回答已采纳
1
回答
在多次迭代中使用
Spark
RDD
、
、
、
我是
Spark
的
新手,如果这个问题太基本了,请原谅。我有一个实时场景,其中数据被连续推送到队列中,并且需要对这些数据运行分析。
Spark
从队列分析中提取这些数据是多阶段
的
,
RDD
通过每个阶段
的
中间更新一次又一次地迭代,最后我们得到一些映射,这些映射在
RDD
本身中更新。分析需要每n分钟重复一次,它应该处理
RDD
+新数据
的
前一个最终状态。这些作业始终按顺序运行,在前一个作业完成之前,下一个作业永远不会运行。我总是可以将运行中
的<
浏览 1
提问于2017-11-17
得票数 0
2
回答
清除
Spark
节点上
持久
存在
的
RDD
数据
、
、
在任务失败
的
情况下,当尝试从头开始任务时,
spark
是否清除
持久
RDD
(StorageLevel.MEMORY_ONLY_SER)并重新计算它们。或者将附加
缓存
的
RDD
。我在
持久
化
RDD
的
任何任务失败
的
情况下看到重复
的
记录。任何帮助都将不胜感激。
浏览 5
提问于2017-03-21
得票数 1
6
回答
缓存
和
持久
化
有什么区别?
、
、
在
RDD
持久
化
方面,cache()和persist()在
spark
上有什么不同?
浏览 3
提问于2014-11-12
得票数 223
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark中的数据缓存和数据持久化机制。
大数据入门:Spark持久化存储策略
尚学堂笔记:大数据Spark有怎样的缓存机制
spark缓存机制到底怎么用——尚学堂
GC调优在Spark应用中的实践
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券