腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何将
zip
文件
的
内容
分配给
Spark
中
的
每个
任务
?
、
、
、
因此,我有一个应用程序,其中有多个压缩
文件
位于HDFS目录
中
。我想创建一个RDD,其中
每个
任务
都处理一个
zip
文件
的
内容
。此时,我使用HDFS客户端库从
文件
名创建了一个RDD,并在
每个
任务
中
读取了一个
zip
文件
的
内容
。 但是,我不想这样做,而是让一个
任务
自动分配
zip
浏览 6
提问于2017-01-16
得票数 1
回答已采纳
1
回答
如何将
唯一
的
整数键
分配给
Apache
Spark
Java应用程序
中
的
每个
Apache
Spark
Executor?
、
、
我需要为
spark
应用程序
中
的
每个
spark
executor分配一个唯一
的
整数id。我需要从在executor上运行
的
任务
中
检索executor id。执行器id将与其它数据元素(时间戳、mac地址等)一起用于生成唯一
的
64位密钥。
如何将
唯一
的
整数键
分配给
Apache
Spark
Java应用程序
中
的
浏览 27
提问于2018-01-18
得票数 0
回答已采纳
1
回答
如何将
分区
分配给
星火中
的
任务
、
假设我正在从一个S3
文件
夹读取100个
文件
。
每个
文件
的
大小为10 MB。当我执行df =
spark
.read.parquet(s3 path)时,
文件
(或者更确切地说是分区)是如何跨
任务
分发
的
?例如,在本例
中
,df将有100个分区,如果
spark
有10个
任务
用于将该
文件
夹
的
内容
读取到数据框架
中
,那么分区是如何
浏览 3
提问于2019-12-09
得票数 2
回答已采纳
1
回答
星火中
每个
任务
的
CPU数
、
、
我不太理解
spark
.task.cpus参数。在我看来,“
任务
”似乎对应于执行器
中
的
“线程”或“进程”(如果您愿意的话)。假设我将"
spark
.task.cpus“设置为2。我在部署/executor/Executor.scala
中
查看launchTask()函数,这里没有任何“
每个
任务
的
cpus数量”
的
概念。那么,
Spark
最终
如何将
多个cpu<em
浏览 0
提问于2016-04-17
得票数 24
回答已采纳
1
回答
在SparkStreaming中火花推测生效后,不将
任务
分配给
exectuor
、
我有一个从kafka读取消息
的
SparkStreaming应用程序,所有的
任务
流程数据都是process_local
的
。当
任务
在executor 0
中
挂起时,推测会生效,并在其他executor
中
重新运行
任务
(见下图)但我发现在推理生效后,没有
任务
分配给
执行器0,数据局部性由process_local变为any,这导致调度
任务
的
时间更长 executor丢失i
浏览 0
提问于2018-12-29
得票数 0
1
回答
Dataproc群集属性(核心、内存和memoryOverhead)设置
、
、
--scopes 'https://www.googleapis.com/auth/cloud-platform' \
spark
:
spark
.default.parallelism=512,\
spark
浏览 39
提问于2020-06-15
得票数 2
回答已采纳
1
回答
增加
Spark
workers内核
我已经在主机和2个工人上安装了
Spark
。
每个
worker
的
原始核心数是8。当我启动主机时,worker可以正常工作,没有任何问题,但问题是在
Spark
GUI
中
每个
worker只分配了2个核心。亲切地,我怎样才能增加
每个
工人工作
的
8个核心
的
核心数量?
浏览 8
提问于2019-12-05
得票数 2
回答已采纳
1
回答
WheelCommand至少接受3个参数,但只给出了2个
、
、
我正在尝试使用下面的自动化来打包我
的
PySpark代码,以便在之后使用
spark
-submit来运行它: https://bytes.grubhub.com/managing-dependencies-and-artifacts-in-pyspark-7641aa89ddb7 https://github.com/alekseyig/
spark
-submit-deps 由于我
的
pip版本可能比作者
的
版本高,因此我需要对setup.py进
浏览 9
提问于2019-12-18
得票数 0
5
回答
如何在Apache
Spark
中
读取包含多个
文件
的
zip
、
、
我有一个包含多个文本
文件
的
压缩
文件
。我想读取
每个
文件
,并构建一个包含
每个
文件
内容
的
RDD列表。val test = sc.textFile("/Volumes/work/data/kaggle/dato/test/5.
zip
") 将只是整个
文件
,但如何迭代通过
每个
内容
浏览 0
提问于2015-08-19
得票数 8
1
回答
为什么
每个
星火
任务
没有使用所有分配
的
核心?
、
、
、
、
假设我
每个
执行器有36个核心,
每个
节点有一个执行器,
每个
节点有3个节点,
每个
节点有48个可用
的
核心。我注意到
的
基本要点是,当我将
每个
任务
设置为使用一个核心(默认)时,我对工作人员
的
CPU利用率约为70%,
每个
执行器将同时执行36个
任务
(正如我所预期
的
)。但是,当我将配置更改为
每个
任务
有6个核心(--conf
spark
.task
浏览 0
提问于2018-01-04
得票数 2
回答已采纳
1
回答
spark
何时以及如何在执行器上分发分区
、
spark
如何将
分区
分配给
executor。当我在
spark
shell中使用1个驱动程序和5个执行器运行以下代码行时:重新分区后,10个分区仍然位于原来
的
两
浏览 1
提问于2016-12-07
得票数 5
2
回答
火花执行器上
的
并发
任务
、
是什么决定了在一个火花执行器上可以同时运行多少个
任务
?也许是某种线程池和共享内存资源?这是否意味着在执行程序中使用
的
代码应该始终是线程安全
的
?
浏览 3
提问于2016-11-05
得票数 1
回答已采纳
1
回答
PySpark安全列类型转换
、
如果我将一个列强制转换为不同
的
类型,那么任何无法强制转换
的
数据都会被静默转换为NULL: df = sc.parallelize([('a', '1'), ('b', 'NAN'), ('c', 'foo
浏览 4
提问于2017-09-29
得票数 0
1
回答
如何从磁盘加载
spark
-nlp预训练模型
、
、
、
、
我从
spark
-nlp GitGub 下载了一个包含预先训练好
的
NerCRFModel
的
.
zip
文件
。
zip
包含三个
文件
夹: embeddings、fields和metadata。
如何将
其加载到Scala NerCrfModel
中
以便使用?我是否必须将其放入HDFS或启动
Spark
Shell
的
主机?我如何引用它?
浏览 2
提问于2018-08-29
得票数 3
2
回答
火花中
每个
核
的
线程数
、
我只想澄清一些在火花中使用线程时让我感到困惑
的
事情。
每个
核心只能运行一个线程,或者至少一个
任务
槽与对应,一个内核和一个核心,而不是线程。本地模式
的
情况是一个例外。它使用可用线程来模拟集群模式下可用
的
任务
槽。
浏览 3
提问于2017-08-04
得票数 3
回答已采纳
1
回答
以独立模式提交多个
spark
应用程序
、
、
、
、
我使用4种不同
的
语言(R,python,java,scala)编写了4种
spark
应用程序(从文本
文件
中
查找wordcount )。./wordcount.py.=4./bin/
浏览 0
提问于2017-06-15
得票数 0
1
回答
在
Spark
中
读取HDFS时
的
任务
数
ORC格式
的
非格式化表格中有200个
文件
。
每个
文件
都在170KB.The左右,总大小约为33MB。 想知道为什么
spark
阶段读表生成7个
任务
。该作业被
分配给
一个具有5个核心
的
执行器。
浏览 43
提问于2021-09-02
得票数 4
回答已采纳
1
回答
spark
读取HDFS
中
zip
文件
的
内容
、
、
、
我正在尝试从
zip
文件
中
读取数据val f = sc.wholeTextFiles("hdfs://")有没有可能做到这一点
浏览 26
提问于2018-08-24
得票数 1
回答已采纳
1
回答
如何在写入Cassandra时控制
Spark
任务
的
数量
、
、
在mesos上使用
spark
与kafka和cassandra (
spark
- cassandra -connector)结合使用
spark
-streaming我正在听一个kafka主题,然后使用.saveToCassandra插入到cassandra
中
我有60个CPU
分配给
spark
(30个
spark
节点和5个cassandra节点),我正在尝试遵循apache
spark
的
建议“一般来说,我们建议集群
中
<em
浏览 0
提问于2015-09-17
得票数 1
1
回答
HadoopPartition
的
位置
、
、
我在一个csv
文件
中有一个数据集,它在HDFS
中
占用两个数据块,并在两个节点A和B上进行复制。
每个
节点都有该数据集
的
副本。当
Spark
开始处理数据时,我已经看到了
Spark
如何将
数据集加载为输入
的
两种方式。它要么将整个数据集加载到一个节点上
的
内存
中
并在其上执行大多数
任务
,要么将数据集加载到两个节点中并将
任务
分散到这两个节点上(基于我在历史服务器上观察到
的
内
浏览 1
提问于2015-07-04
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券