腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
如何
处理
超出
其
容量
的
内存
假设我
的
Spark
集群有100G
内存
,在
Spark
计算过程中,会生成更多大小为200G
的
数据(新数据帧、缓存)。在这种情况下,
Spark
会将部分数据存储在磁盘上,还是只会使用OOM
浏览 235
提问于2020-07-14
得票数 0
回答已采纳
1
回答
Cloudera执行问题:问题:初始作业未接受任何资源
、
、
、
、
我正在尝试使用SAP
Spark
Controller在我们
的
SAP HANA数据库上从Cloudera
的
Quick Start Hadoop发行版(我们
的
Linux VM )中获取一些数据。每次我在HANA中触发作业时,它都会卡住,并且我看到
SPARK
Controller
的
日志文件中每隔10-15秒就会连续记录以下警告,除非我终止该作业。WARN org.apache.
spark
.scheduler.cluster.YarnScheduler: Initial jo
浏览 5
提问于2019-05-19
得票数 1
1
回答
如何
将Apache用作Apache
的
外部数据源
、
为了提高性能,我们需要一个Apache数据库
的
内存
缓存。我最近对Apache做了一些研究,我们决定使用Ignite作为
Spark
的
外部数据源,下面是我现在发现和困惑
的
地方: 在深入分析代码之后,我发现
Spark
将被转换为Ignite,然后将查询发送到每个我们
的
数据太大,无法全部加载到
内存
中,我们只能将其中一些数据加载到
内存
中,可能只加载一些小表,客户端将转向HDFS,如果查询没有到达缓存。我
的
问题是:作为
浏览 1
提问于2021-02-19
得票数 2
回答已采纳
1
回答
字符数组上
的
缓冲区溢出snprintf
此代码写入
超出
&checksumBuffer[writeIndex]指向
的
缓冲区末尾
的
内容int writeIndexchecksumBuffer[writeIndex],sizeof(checksumBuffer), "%02x", *checksum++);&checksumBuffer[writeIndex]
的
计算结果为snprintf()从&checksumBuff
浏览 25
提问于2018-01-29
得票数 0
回答已采纳
1
回答
pypsark
的
内存
管理。我们是否应该努力编写尽可能少传递到python函数
的
代码?
、
我认为在pyspark中,python代码运行在python进程中,这些进程不使用pyspark创建
的
JVM
的
内存
堆。所以, 如果我使用pyspark提供
的
函数,我
处理
的
是JVM
内存
堆(
spark
.executor.memory)If和
spark
.driver.memory,我使用python本机函数),那么我
处理
python进程
内存
堆(
spark
.driver.memoryOv
浏览 1
提问于2022-01-13
得票数 0
4
回答
是否仅在达到虚拟限制时
内存
不足?
、
、
、
据我所知,在win32中,每个程序都有4 4GB
的
虚拟
内存
。
内存
管理器负责将物理
内存
中
的
内存
块卸载到磁盘上。这是否意味着只有当达到虚拟限制时,malloc或其他
内存
分配应用程序接口才会抛出OUT_OF_MEMORY异常?我
的
意思是,即使程序远远
超出
其
虚拟大小限制,malloc也可能失败,例如,没有物理
内存
可以卸载到磁盘上。假设磁盘
容量
不受限制,且未设置任何特定限制。
浏览 0
提问于2009-10-05
得票数 3
回答已采纳
1
回答
火花提交命令中
的
spark
.executor.cores和executor核之间有什么区别?
、
火花提交命令中使用
的
executor-cores和
spark
.executor.cores之间有什么区别吗? 由于GC开销
内存
错误,我
的
工作失败了,所以我试图增加内核和
内存
设置。我正在
处理
的
总
容量
是两个文件中
的
50M记录。
浏览 2
提问于2016-02-01
得票数 0
回答已采纳
1
回答
如何
将
内存
中
的
文件部件缓存为
Spark
中
的
RDD?
、
、
我需要流读取到非常大
的
文件(在TBs中)。为了达到更高
的
吞吐量,如果我们能够缓存文件部分在
内存
中。
Spark
可以在分布式
内存
中缓存数据。
如何
使用
spark
缓存文件部件?文件大于任何一台计算机
的
本地存储空间,也大于集群中
内存
总
容量
的
总和。
浏览 1
提问于2014-05-08
得票数 1
回答已采纳
3
回答
ByteArrayOutputStream
容量
限制
、
、
我创建ByteArrayOutputStream barr = new ByteArrayOutputStream(1);,即
容量
为1字节,并向
其
写入超过1字节
的
barr.write("123456789000000没有发生错误,我检查barr
的
长度它是15。为什么我
的
写作没有被阻止或包装?是否有一种方法可以防止编写
超出
容量
的
内容,而哪一种outputstream可用于此?我
的
可用
内存
非常有限,我不想写得比
浏览 5
提问于2015-10-08
得票数 2
回答已采纳
1
回答
内存
访问安全实现问题
我理解,如果一个程序需要访问某些受保护
的
指令,它需要使用系统调用接口。IO设备访问可以是一个例子。产生一个中断,它将模式设置为内核模式等。据我所知,只有操作系统才有能力检查程序是否正在访问
内存
。为了能够进入操作系统,中断是必需
的
。这是否意味着数组和变量<
浏览 5
提问于2020-12-12
得票数 0
回答已采纳
1
回答
HadoopPartition
的
位置
、
、
每个节点都有该数据集
的
副本。我多次重复相同
的
实验,
Spa
浏览 1
提问于2015-07-04
得票数 0
1
回答
在纱线上运行星火是
如何
使用Python
内存
的
?
、
、
、
、
在阅读了这些文档之后,我不明白
Spark
在
Spark
上运行是
如何
导致Python
内存
消耗
的
。它算在
spark
.executor.memory,
spark
.executor.memoryOverhead还是在哪里?特别是,我有一个带有PySpark
的
spark
.executor.memory=25G应用程序,
spark
.executor.cores=4和我经常遇到容器因为
超出
内存
限制
浏览 5
提问于2016-10-05
得票数 27
回答已采纳
4
回答
集装箱
的
C++增长?
、
、
如果插入
超出
其
容量
的
向量,则向量将重新分配。在向量中有另一个可调整大小
的
类型
的
情况下,该向量是否仅包含指向该类型
的
指针? 特别是,我想知道如果向量包含任意类型,
内存
是
如何
分配
的
。
浏览 2
提问于2017-02-18
得票数 1
回答已采纳
2
回答
在PySpark中设置纱线队列
、
、
、
.set("
spark
.executor.memory", "10g") .set("
spark
.driver.memory", "5g")
浏览 0
提问于2018-02-06
得票数 11
回答已采纳
1
回答
如何
处理
超出
内存
容量
的
单元阵列?
、
、
、
、
在将总计35 GB
的
计量数据(GRIB文件)读取到matlab单元阵列中时,我遇到了
内存
不足(RAM)
的
问题。%加载grib文件 waitbar(ii/number_files,h); file_name = [fname
浏览 1
提问于2015-06-06
得票数 0
1
回答
spark
如何
在幕后读取数据?
、
、
例如,我有点困惑于
spark
是
如何
从s3读取数据
的
。假设要从s3读取100 GB
的
数据,而
spark
集群
的
总
内存
为30 GB。
spark
是否会在触发操作后读取所有100 GB
的
数据,并将最大数量
的
分区存储在
内存
中,并将剩余
的
分区溢出到磁盘?还是只读取可以存储在
内存
中
的
分区,对
其
进行
处理
,然后读取其余数据?任何到
浏览 2
提问于2021-09-19
得票数 2
1
回答
在Apache
spark
中跨执行器共享数据
、
、
、
、
我
的
SPARK
项目(用Java编写)需要跨执行器访问(选择查询结果)不同
的
表。然而,我发现 表非常大,因此创建大
容量
的
Map并将其作为广播变量传递给执行者听起来并不有效。相反,我们是否可以使用可跨执行程序共享
的
load 加载
内存
中
的
表?是void org.apache.
spark
.sql.Dataset.createOrReplaceTemp
浏览 0
提问于2018-12-18
得票数 0
回答已采纳
1
回答
配置
的
Spark
会话未使用完整
的
resources.Please建议需要应用哪些更改
、
、
下面是我
的
集群
容量
:最小资源:
内存
:2400000,vCores:375,磁盘:32.0最大资源:
内存
:4800000,vCores:800,磁盘:64.0
spark
= SparkSession.builder.master("yarn")\ .config("
浏览 0
提问于2017-11-08
得票数 0
2
回答
如何
配置yarn集群实现应用程序
的
并行执行?
、
、
、
、
当我在yarn集群上运行
spark
作业时,应用程序在队列中运行。那么,
如何
在多个应用程序中并行运行呢?
浏览 0
提问于2018-08-31
得票数 0
1
回答
逐步增加老一代堆
内存
、
、
在火花流中,我面临一个非常奇怪
的
问题。我使用
的
是
spark
2.0.2,节点数3,执行器数目3 {1接收器和2
处理
器},每个执行器2GB
内存
,每个执行器1内核。批
处理
间隔为10秒。我
的
批号大约是。我
的
批次
的
处理
时间从最初
的
2秒逐渐增加到了几分钟,但在最初
的
40-50个小时内,它运行得相当好。在此之后,调度延迟和
处理
时间开始激增。 我试着看了一下GC,驱动程序<em
浏览 3
提问于2017-02-14
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券