腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
:
基于
窗口
的
处理
是
如何
拆
分给
执行器
的
?
apache-spark
、
apache-spark-sql
、
bigdata
我清楚地知道
Spark
如何
将数据拆分到executors中
的
分区,然后每个分区被
处理
,然后聚合,直到最终
的
“逻辑”数据帧。然而,使用windows时,我觉得每个
窗口
数据都应该在一个单独
的
分区中,这样每个executor都在本地拥有所有数据?或者,数据仍然被拆分,然后用一种魔术聚合?这类
窗口
的
一个示例
是
: val window = Window .partitionBy("partition-col&qu
浏览 25
提问于2019-10-15
得票数 4
回答已采纳
1
回答
基于
Spark
处理
存储在SSD上
的
数据
apache-spark
、
apache-spark-sql
、
hdfs
、
solid-state-drive
我们目前正在使用
基于
Spark
2.1
的
应用程序,该应用程序分析和
处理
大量记录,以生成一些用于报告生成
的
统计数据。现在我们使用150个
执行器
,每个
执行器
2个核心,每个
执行器
10 GB用于我们
的
spark
任务,数据大小为~3TB,以parquet格式存储。
处理
12个月
的
数据需要大约15分钟
的
时间。现在,为了提高性能,我们希望尝试完全
基于
SSD<em
浏览 12
提问于2018-12-16
得票数 0
回答已采纳
1
回答
星河中
的
窗口
函数会导致长期挂起
的
任务
apache-spark
、
spark-streaming
、
windowing
我们正试图在
spark
中实现
窗口
功能。
Spark
正在通过Kafka (有5个分区)接收数据,我们正在使用
Spark
进行
处理
。一旦从kafka分离
的
逗号数据被映射到
Spark
中
的
一个对象,我们就创建了一个20秒
的
窗口
,该
窗口
在1秒内滑动。一切正常工作,直到在
处理
时间内出现尖峰,这大约需要40秒来
处理
一个任务并发布这个,我们得到一个很长
的
队列。)-为
浏览 3
提问于2017-07-14
得票数 0
1
回答
如何
启动并行
spark
作业?
apache-spark
、
pyspark
我想我对
如何
启动工作还不够了解。 --conf
spark
.shuffle.service.enabled=true \ --conf
spark
.executor.instances=4 \ 如果我增加来自代码
的
分区数量和执行程序
的
数量,应用程序会更快地完成,这是可以
浏览 3
提问于2017-02-14
得票数 0
回答已采纳
1
回答
Spark
中有没有太多
的
executors?
apache-spark
、
hadoop-yarn
我正在使用
Spark
/YARN集群,它限制了我可以分配给8 8GB内存和每个容器一个核心
的
资源,但我可以分配数百,甚至数千个
执行器
来运行我
的
应用程序。然而,由于驱动程序具有类似的资源限制(8 8GB内存,4核),我担心太多
的
执行器
可能会使驱动程序不堪重负并导致超时。 是否有调整驱动程序内存和内核大小以
处理
大量执行程序
的
经验法则?
浏览 0
提问于2017-03-10
得票数 1
1
回答
火花加工用纱线
执行器
hadoop
、
apache-spark
、
hadoop-yarn
Process
spark
= new SparkLauncher().setMainClass("com.aa.bb.app").setDeployMode( "cluster").launch(); 这是用
执行器
浏览 1
提问于2017-04-03
得票数 0
回答已采纳
2
回答
在关闭我
的
终端时,
如何
在服务器上使用python运行我
的
dse
spark
应用程序呢?
apache-spark
、
pyspark
、
datastax-enterprise
这是我
的
submit命令,我不知道
如何
在我
的
终端
窗口
关闭时在后台运行它: 提交-主火花://主火花:7077-
执行器
-内存2G -总-
执行器
-核心2-包org.apache.
spark
:
spark
-streaming-kafka
浏览 4
提问于2016-02-23
得票数 1
回答已采纳
1
回答
如何
在dcos
spark
run中传递jar文件(来自Artifactory)?
jar
、
pyspark
、
dcos
、
spark-submit
我试图在DC/OS平台上运行
spark
streaming作业,但我遇到了kafka包
的
问题。当我尝试使用--jars模式包含Kafka库和它
的
依赖项(从Maven下载
的
jar文件,添加到artifactory并从中读取)时,如下所示: dcos
spark
run --submit-args"/
spark
-streaming 2.11-2.2.1.jar --conf
spark
.executor.memory=2g --py-files
浏览 9
提问于2018-11-19
得票数 0
1
回答
自动设置Dataproc集群后Yarn/
Spark
的
内存分配不正确
hadoop
、
google-cloud-platform
、
google-cloud-dataproc
我正尝试在Dataproc集群上运行
Spark
作业,但由于Yarn配置错误,
Spark
无法启动。从shell运行"
spark
-shell“时(在主机上本地运行),以及从本地计算机通过web-GUI和gcloud命令行实用程序上传作业时,我收到以下错误:java.lang.IllegalArgumentExcept
浏览 0
提问于2015-11-09
得票数 10
回答已采纳
1
回答
火花上
的
Dataproc:有可能运行更多
的
每个CPU
执行器
?
apache-spark
、
google-cloud-dataproc
我在上运行
Spark
1.6.2(所以Dataproc版本为1.0)。我
的
集群由几个n1-standard-8工作人员组成,我正在每个核心运行一个
执行器
(
spark
.executor.cores=1)。我发现,我
的
总体CPU利用率永远不会超过50%,即使每个工作人员运行
的
执行器
数量都是正确
的
(我将在每个工作人员上为OS保留一个核心,等等)。我想知道是否有可能在每个工作人员上运行更多
的
执行程序来更充分地利用集群?如果
是
,
浏览 0
提问于2018-05-11
得票数 4
回答已采纳
2
回答
火花驱动器内存计算
apache-spark
、
memory
、
memory-management
、
driver
、
executor
我知道
如何
计算
执行器
核心和memory.But,谁能解释
spark
.driver.memory
是
基于
什么基础计算
的
?
浏览 0
提问于2018-12-05
得票数 1
回答已采纳
1
回答
在
Spark
中重新分区大文件
scala
、
apache-spark
、
apache-spark-sql
、
spark-streaming
我
是
Spark
的
新手,有一个1TB
的
文件要
处理
。我
的
系统规格
是
:节点数:2据我所知,我必须重新分区数据以获得更好
的
并行性,因为
spark
将尝试创建默认分区,仅通过(totalNumber of但在我
的
例子中,由于数据文件非常大,我必须将这些数据重新划分为一个数字,以便能够以有效
的
方式
处理
这些数据。
浏览 1
提问于2020-11-02
得票数 1
1
回答
Apache
如何
计算分区以及
如何
在executor中
处理
分区
mysql
、
hadoop
、
apache-spark
、
spark-dataframe
我需要一些帮助来理解
Spark
如何
决定分区
的
数量以及它们
是
如何
在
执行器
中
处理
的
,对于这个问题我感到很抱歉,因为我知道这是一个重复
的
问题,但是即使在阅读了很多文章之后,我仍然无法理解我正在使用
的
实际生活用例我
的
硬件配置:
spark
-submit config:
浏览 3
提问于2017-09-01
得票数 1
2
回答
Hadoop纱簇性能调整
hadoop
、
apache-spark
、
hadoop-yarn
我想知道一些参数,以加快我
的
纱线集群上
的
火花作业。-
spark
.yarn.am.cores = 2-
spark
.executor.cores = 8- yarn.nodemanager.resource.memory-mbyarn.nodemanager.reso
浏览 0
提问于2015-11-09
得票数 0
1
回答
spark
streaming中限制Kafka消费数据
apache-kafka
、
spark-streaming
、
kafka-consumer-api
Spark
从kafka获取数据。我想通过
spark
-streaming限制记录消耗。关于卡夫卡
的
数据非常庞大。我使用
spark
.streaming.kafka.maxRatePerPartition=1属性来限制
spark
中
的
记录。但是仍然在5分钟内,我收到了13400条消息。我
的
spark
程序每5分钟不能
处理
超过1000条消息。Kafka topic有3个分区。我
的
spark
驱动内存
是</
浏览 17
提问于2018-02-06
得票数 0
1
回答
spark
.yarn.driver.memoryOverhead或
spark
.yarn.executor.memoryOverhead用来存储什么样
的
数据?
apache-spark
、
hadoop-yarn
我想知道: 星火使用
spark
.yarn.driver.memoryOverhead或
spark
.yarn.executor.memoryOverhead存储什么样
的
数据?在这种情况下,我应该提高
spark
.yarn.driver.memoryOverhead或
spark
.yarn.executor.memoryOverhead
的
价值?
浏览 0
提问于2016-04-07
得票数 4
回答已采纳
2
回答
基于
海量和小数据负载
的
星火SQL计算
apache-spark
我有一个用例,根据传入
的
参数,我可能需要从数据库中获取和
处理
数百万条或记录(使用jdbc读取rdbms、解码、转换为xml、转换为csv等,这是一个非常耗时
的
过程),或( 2)只
处理
少量
的
延迟或少数记录请注意,我不知道在这个多租户火花应用程序
的
数据量,直到我
的
应用程序运行期间,我计算
的
记录总数#我需要
处理
。我有两个问题要问:
如何
知道在开始运行时,我需要多少个执行程序或内核来请求这个火花作业,而不知道数据卷。现在我<
浏览 11
提问于2022-12-02
得票数 0
1
回答
火花纱簇仍未得到充分利用
python
、
azure
、
apache-spark
我
的
Python代码中最相关
的
部分
是
创建长度为72
的
元组
的
Python arg_list。(每个元组大约有6个元素,没有两个元组
是
相同
的
。)然后我创建了一个RDD,它有72个分区,rdd = sc.parallelize(arg_list, len(arg_list)) 根据接收到<
浏览 0
提问于2018-05-25
得票数 0
1
回答
Kafka消费者请求超时
apache-spark
、
apache-kafka
、
spark-streaming
我有一个
Spark
streaming (Scala)应用程序运行在CDH 5.13中,使用client 0.10.0使用Kafka
的
消息。我
的
Kafka集群包含3个代理。我
的
Spark
流媒体客户有12个
执行器
,每个
执行器
都有一个核心。
Spark
streaming开始从Kafka读取每批数百万条消息,但由于
Spark
无法应对负载和创建未
处理
批量
的
队列,因此将消息数减少到数千。这很好,我
的<
浏览 0
提问于2018-10-09
得票数 1
2
回答
使用火花-提交,
multithreading
、
hadoop
、
apache-spark
、
pyspark
、
cpu-cores
根据我所看到
的
,在默认情况下,
Spark
每个节点启动4个从节点(我让4个python同时
处理
一个从节点)。我又看了一遍火花文档,以下
是
我所理解
的
: 但是,每个工作人员都可以并行地运行
浏览 6
提问于2015-05-04
得票数 14
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Flink与storm的主要区别译文
Uber开源JVM Profiler,用以跟踪分布式Java虚拟机
SparkStreaming源码阅读思路
每天读一本:Spark快速大数据分析
使用Spark进行微服务的实时性能分析
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券