腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
中
几个
任务
中
的
重新
分区
数据
瓶颈
apache-spark
、
apache-spark-sql
我有一个简单
的
spark
工作,它做以下工作 val dfIn =
spark
.read.parquet(PATH_IN)dfOut.write.mode(SaveMode.Append).partitionBy(col1, col2, col3).parquet(PATH_OUT) 我注意到这份工作
的
表现有很大
的
恶化检查
Spark
UI显示,写入
瓶颈
出现在一些
任务<
浏览 31
提问于2021-11-04
得票数 2
2
回答
由于本地级别为“任意”和缓存
的
RDD上
的
网络获取而造成
的
严重分离
任务
apache-spark
已完全读取
的
缓存
数据
集(已成功读取)正在
重新
处理。少数
任务
(通常为2/204个
任务
- 1%)在随后通过相同
的
(仍缓存
的
)
数据
集时可能会失败。我们在第1.3.1号火星上。下面的屏幕截图显示,在204个
任务
中
,最后两个
任务
似乎被调度程序“遗忘”了。 所有其他
任务
都是在合理
的</e
浏览 3
提问于2015-08-16
得票数 0
回答已采纳
2
回答
spark
数据
帧
中
的
高效连接
scala
、
apache-spark
、
join
、
apache-spark-sql
、
distributed-computing
我想执行以下操作:有没有任何类型
的
重新
分区
或预处理可以加速这一过程
浏览 3
提问于2018-10-17
得票数 0
1
回答
为什么
Spark
应用程序将包含多个csv文件
的
DataFrame保存到S3存储桶
amazon-web-services
、
apache-spark
、
amazon-s3
、
amazon-emr
嗨,我是
Spark
和Amazon EMR集群
的
新手。 我试图编写一个可以在Amazon EMR集群上运行
的
演示
spark
应用程序。当代码在Zeppelin notebook上运行时,它会返回输出,我认为输出会保存为Amazon EMR集群上
的
单个文件,如下所示: %pyspark
spark
.conf.set('
spark
.sql.repl.eagerEval.enabled应用程序时,它将多个CSV文件保存到S3存储桶
中
。我想知道为什么我<
浏览 31
提问于2021-04-16
得票数 0
回答已采纳
1
回答
理解火花中
的
洗牌和rePartitioning
apache-spark
、
bigdata
如果有人能用简化
的
术语回答这
几个
与火花混淆有关
的
问题,我将不胜感激。在
spark
中
,在加载
数据
集时,我们指定
分区
的
数量,这说明输入
数据
(RDD)应该划分多少块,并且根据
分区
数,启动相同数量
的
任务
(如果假设错误,请更正我),.for X核数在worker node.corresponding按照类似的思路,下面是
几个
问题。 因为,所有byKey操作以及合并、
浏览 0
提问于2017-01-11
得票数 2
2
回答
面向对象模型
的
Spark
内存管理
apache-spark
、
hadoop-yarn
情况是这样
的
:我启动了一个
spark
作业,但由于OOM
的
许多
任务
失败而失败。所以我增加了
任务
的
内存分配。我仍然看到OOM
的
一些节点失败了,但作业最终可能会成功。我
的
问题是
Spark
是如何处理这个问题
的
?似乎
Spark
可以在一次失败
的
尝试后
重新
分发
数据
。附注:失败
的
任务
是在批处理作业
中
应用Win
浏览 0
提问于2018-01-31
得票数 0
1
回答
火花:连接时设置最大
分区
大小
apache-spark
在火花中执行联接时,或者一般情况下,对于洗牌操作,我可以设置
分区
的
最大数量,在其中,我希望
spark
执行此操作。根据文件:
spark
.sql.shuffle.partitions 200配置用于联接或聚合
的
数据
洗牌时使用
的
分区
数。如果我想降低在每个
任务
中
必须完成
的
工作量,我必须估计
数据
的
总大小并相应地调整这个参数(更多
的
分区
浏览 0
提问于2018-12-03
得票数 2
回答已采纳
2
回答
在Apache
中
,如何将缓慢
的
RDD/dataset转换为流?
scala
、
apache-spark
、
apache-spark-sql
、
spark-streaming
我正在研究一个有趣
的
案例,它涉及在一个缓慢
的
RDD或dataset上
的
广泛转换(例如
重新
分区
和连接),例如由以下代码定义
的
数据
集: val ds = sqlContext.createDataset(1,因为它类似于远程
数据
源
的
视图,
分区
迭代器是从单线程网络协议(http、jdbc等)派生
的
,在本例
中
,下载速度>单线程处理速度,但<<是分布式处理速度。不幸
浏览 1
提问于2019-08-13
得票数 15
1
回答
是否可以在火花阶段
重新
排序
任务
?
scala
、
apache-spark
、
apache-spark-sql
、
partitioning
我
的
问题是关于在星火
的
一个阶段
的
任务
顺序。我有一个星火
数据
分割成3000个
分区
。
分区
是在一个特定键上完成
的
。在我
的
dataframe上运行它
的
计算时,我在
Spark
中看到(我还做了一些测试以确保是这样
的
),
任务
index对应于
分区
id,与上面通过mapPartitionsWithIndex获得
的
id完全相同。因此,<
浏览 2
提问于2019-07-26
得票数 1
2
回答
为什么在按组操作期间我
的
洗牌
分区
不是200(默认
的
)?(火花2.4.5)
apache-spark
、
pyspark
、
amazon-emr
我是新
的
火花,并试图理解它
的
内在。因此,我从s3读取一个小
的
50 to
的
拼板文件,然后按组执行,然后保存回s3。当我观察
Spark
时,我可以看到为此创建
的
3个阶段,第1阶段:分组
的
洗牌阶段(12项
任务
)代码示例: df =
spark
.read.format所以,默认
的
并行性是12,我不会在运行时更改任何配置
浏览 2
提问于2020-08-06
得票数 5
回答已采纳
2
回答
为什么火花创建
的
分区
少于从S3读取
的
文件数量
apache-spark
、
amazon-s3
我用
的
是火花2.3.1。当我执行一个mapPartitions和一个collect之后,只使用278
任务
(我希望使用5000)。为什么?
浏览 2
提问于2018-11-06
得票数 0
1
回答
设置用于性能优化、outOfMemoryError Gc和GC限制
的
火花参数
apache-spark
、
dataset
、
pyspark
、
apache-spark-sql
、
apache-spark-dataset
我有5个模式,每个模式有8个cpu核和30GB内存,我有5GB
的
dataset1和65 5GB
的
dataset2,所以我需要加入它们并保存到s3文件系统
中
,我设置了以下参数:但是,我到处搜索,尝试不同
的
参数,但我仍然在摆脱记忆错误。在Java代码
中
也使用了这种方法: conf.set("
spark
.serializer", "org.apache.
spark
.serializer.KryoSeri
浏览 1
提问于2016-11-30
得票数 0
1
回答
在
Spark
中
重新
分区
大文件
scala
、
apache-spark
、
apache-spark-sql
、
spark-streaming
我是
Spark
的
新手,有一个1TB
的
文件要处理。我
的
系统规格是:节点数:2据我所知,我必须
重新
分区
数据
以获得更好
的
并行性,因为
spark
将尝试创建默认
分区
,仅通过(totalNumber of但在我
的
例子
中
,由于
数据
文件非常大,我必须将这些
数据
重新
划分为
浏览 1
提问于2020-11-02
得票数 1
1
回答
saveAsTextFile
的
最后阶段是非常慢
的
apache-spark
、
mahout
、
mahout-recommender
、
collaborative-filtering
仔细检查后,似乎每个
任务
都在读取MapPartitionsRDD,
的
所有1000个
分区
,我认为,从直觉上讲,这些
分区
一定是性能问题
的
根源。这些
分区
分布在所有的执行器上,所以我认为每个
任务
都需要从不是它
的
直接父级
的
n-1执行器
中
请求所有的
分区
。 优化这个应用程序
的
最佳方法是什么?
分区
越少,请求
的
远程
数据
就越少?更少
的</e
浏览 3
提问于2015-11-05
得票数 1
回答已采纳
2
回答
在apache火花生产场景
中
处理倾斜
数据
scala
、
apache-spark
谁能解释在Apache
的
生产中如何处理倾斜
的
数据
?我们使用"
spark
-submit"提交了
spark
作业,并且在
spark
中观察到很少有
任务
花费很长
的
时间,这表明存在偏差。问题:(2)我们是否需要终止作业,然后在jar
中
包含倾斜
的
解决方案并
重新
提交作业?(3)能否通过直接从shell运行(合并)之类<
浏览 0
提问于2018-06-25
得票数 3
1
回答
当从cassandra源读取
数据
时,
spark
中
的
重新
分区
会改变
spark
分区
的
数量吗?
apache-spark
、
cassandra
、
spark-cassandra-connector
我正在从
spark
的
cassandra表
中
读取一张表。我在cassandra中有很大
的
分区
,当cassandra
的
分区
大小超过64MB时,在这种情况下,cassandra
分区
将等于
spark
分区
。由于
分区
太大,我在
spark
中
遇到了内存问题。 我
的
问题是,如果我在从cassandra读取
数据
后开始
重新
分
浏览 48
提问于2021-06-07
得票数 1
2
回答
内存管理火花
apache-spark
、
memory-management
、
pyspark
1.)我理解“星火
的
操作人员如果
数据
不适合内存,就会将
数据
泄漏到磁盘上,允许它在任何大小
的
数据
上运行良好”。如果这是真的,为什么我们会得到OOM (内存
中
的
)错误?3.)与Hive相比,
Spark
更容易受到OOM
的
影响,因为它在内存
中
执行操作,Hive会重复读取、写入磁盘
浏览 4
提问于2020-07-17
得票数 0
回答已采纳
2
回答
当文件不能放入
spark
的
主内存时,
spark
如何读取大文件(‘s)
apache-spark
、
rdd
、
partition
1)
Spark
从NameNode获取
数据
的
位置。
Spark
是否会在同一时间停止,因为根据来自NameNode
的
信息,
数据
大小太长?2)
Spark
根据datanode块大小对
数据
进行
分区
,但不能将所有
数据
存储到主存
中
。这里我们不使用StorageLevel。那么这里会发生什么呢?3)
Spark
做
数据
分区
,有些
数据
会存储在主存
浏览 0
提问于2017-10-09
得票数 30
回答已采纳
2
回答
在
Spark
SQL中加入
分区
以获得更好
的
性能
apache-spark
、
apache-spark-sql
我是
Spark
SQL
的
新手。我有一个关于连接期间
分区
使用
的
问题 假设有一个名为test1
的
表,它保存在10
分区
(parquet)文件
中
。还假设
spark
.sql.shuffle.partitions = 200。问:如果使用test1对另一个表进行Join,
Spark
会使用10
分区
(这是表所在
分区
的
数量)执行操作,还是会在200
分区
中
对表进行<
浏览 42
提问于2021-01-30
得票数 0
2
回答
如何在并行
spark
中
运行转换
scala
、
apache-spark
、
pyspark
、
amazon-emr
我正在尝试读取text.gz文件,对其进行
重新
分区
并进行一些转换,但是当我看到DAG时,stag1正在读取
数据
并仅在1个
任务
上执行转换,因此需要花费一些时间。 df1 =
spark
.read.text("text-04-14.log.gz")text_to_json_udf = udf(tex
浏览 2
提问于2021-04-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark关键性能考量
Spark地基之RDD
BIGO 如何做到夜间同时运行 2.4K 个工作流实例?
Spark 核心编程RDD简介与核心属性
Spark实战(5)_Spark Core核心编程
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券