腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
与
spark
中
的
所有
其他
任务
相比
,
最后
2
/
3
的
任务
需要
大量
的
时间
、
、
、
、
我正在尝试对评论做感伤
的
分析。程序在
Spark
上成功运行,但我面临
的
问题是在70个分区
中
,68个分区
的
时间
比
最后
2
个分区
的
时间
缩短了约20%。我已经检查了我
的
数据在
所有
分区上是否均匀分布,甚至还检查了不同
的
样本数据。另外,我使用persist(StorageLevel.MEMORY_AND_DISK_SER)为
所有
数据帧运行了代码,并在不再<em
浏览 29
提问于2016-09-26
得票数 1
1
回答
YARN申请
的
资源处于非活动状态,
其他
作业会使用吗?
、
、
我运行了一个
spark
任务
,在纱线上分配了
大量
的
资源,而且这个
任务
持续了很长
时间
。
最后
,
spark
作业
的
任务
只是活动
的
一个核心和两个核心。我想知道不活跃
的
资源是不是可以被
其他
spark
工作或mr工作使用。 或者只完成第一个
spark
作业,资源就可以被
其他
作业使用。
浏览 12
提问于2021-08-09
得票数 0
回答已采纳
2
回答
火花分区
中
的
数据何时真正实现?
、
(func
3
).count() 我有一个由
2
个节点组成
的
集群,每个节点上有8个核心。我观察到每个线程上至少有一个
任务
(通常只有一个
任务
)(总共16个
任务
),比
其他
任务
花费
的
时间
要长得多。例如,在一次运行
中
,
与
在一秒钟或更短
时间
内运行
的
其他
任务
相比
,这些
任
浏览 7
提问于2020-01-20
得票数 1
回答已采纳
1
回答
Python多处理工具vs Py(
Spark
)
、
、
、
、
我意识到如果我用pyspark划分我
的
数据,我不能再把每个分区当作一个独立
的
pandas数据框架,
需要
学习如何使用pyspark.sql
的
行/列函数来操作,并修改很多现有的代码,再加上我一定会触发mllib库,而不能充分利用更成熟
的
scikit-learn包。那么,如果我可以使用多处理工具进行集群计算并并行现有数据帧上
的
任务
,那么我为什么还
需要
使用
Spark
呢?
浏览 2
提问于2017-06-15
得票数 6
1
回答
Spark
中
几个
任务
中
的
重新分区数据瓶颈
、
我有一个简单
的
spark
工作,它做以下工作 val dfIn =
spark
.read.parquet(PATH_IN)dfOut.write.mode(SaveMode.Append).partitionBy(col1, col
2
, col
3
).parquet(PATH_OUT) 我注意到这份工作
的
表现有很大
的
恶化检查
Spark
浏览 31
提问于2021-11-04
得票数 2
1
回答
输入流数据在
任务
之间分布不均匀
、
、
、
我已经编写了从s
3
读取数据
的
火花流作业。>>> stateDstream
3
= stateDstream
2
.mapToPair(s -> s); 我将
spark
.default.parallelism设置为6。我看到第一个和
最后
一个maptopair阶段已经足够快了。第二个和第三个map
浏览 1
提问于2016-03-30
得票数 0
1
回答
不使用
所有
可用
的
CPU
、
查询:这工作一开始一切都很好。随着~190 k
任务
的
进行,火花将逐渐从使用2800 CPU下降到两位数(通常是在20个CPU左右
的
底部)。这使得
最后
190 k
任务
的
完成
时间
比之前
的
800 k要
浏览 1
提问于2020-12-10
得票数 0
回答已采纳
1
回答
洗牌
最后
一项
任务
花了太多
时间
才能完成
、
、
我有大约80 it
的
数据,一切都很顺利,直到
最后
的
洗牌
任务
出现,
所有
的
任务
都在30分钟内完成,但是
最后
的
任务
需要
超过
2
个小时才能完成。Joins:(左连接)连接
3
个表,其中一个表相对较小(
2
MB)数据,对于那个设置广播变量,即使我删除了第
3
个表,它也没有解决我
的
问题。 下面是配置
的
参数。
spark</e
浏览 8
提问于2022-03-02
得票数 1
回答已采纳
3
回答
Adobe Premiere脚本
、
、
我想自动化
的
Adobe Premiere Pro CS6上
的
任务
序列,这是
所有
重复
的
任务
,而手动做消耗了
大量
的
时间
,:),从:导入视频文件,图像文件,文档文件->使序列->添加文件
与
预定义
的
高度,宽度->插入脚本->分析它们->添加标记在元数据上
的
特定字->,
最后
导出它。我想让
所有
这些
任务
自动
浏览 12
提问于2012-08-08
得票数 3
3
回答
在
spark
中
确定分区/
任务
执行
的
优先级
、
、
、
我有一份关于倾斜数据
的
工作。
需要
根据列对数据进行分区。我想告诉
spark
首先开始处理最大
的
分区,这样我就可以更有效地使用可用资源。原因如下:我总共有10000个分区,其中9999个分区只
需要
1分钟处理,1个分区
需要
10分钟处理。如果我先得到较重
的
分区,我可以在11分钟内完成这项工作,如果我
最后
得到它,则
需要
18分钟。有没有办法区分分区
的
优先级?这对你来说有意义吗?
浏览 2
提问于2018-08-17
得票数 6
4
回答
Spark
任务
似乎分配得不太好
、
我正在运行一个
Spark
作业,似乎
任务
分配得不太好(见附件)。有没有办法让
任务
分布得更均匀呢?谢谢!
浏览 1
提问于2015-06-17
得票数 6
2
回答
投机性处决Mapreduce/火花
、
、
我知道Hadoop/
Spark
框架将检测出故障或缓慢
的
机器,并在不同
的
机器上执行相同
的
任务
。如何(基于什么基础)框架识别运行缓慢
的
机器。有什么统计数据可供框架决定吗? 有人能在这里亮点光吗?
浏览 8
提问于2017-07-23
得票数 1
回答已采纳
4
回答
Spark
写拼花木板到S
3
最后
一个
任务
永远要用
、
、
我正在编写一个从DataFrame到S
3
的
拼图文件。当我查看
Spark
UI时,我可以看到除了一个快速完成
的
编写阶段(例如199/200)之外
的
所有
任务
。
最后
一项
任务
似乎永远
需要
花费很长
时间
才能完成,而且经常会因为超出executor内存限制而失败。 我想知道在
最后
一个
任务
中发生了什么。如何优化?谢谢。
浏览 3
提问于2015-08-05
得票数 10
2
回答
集项目管理、日常事务和日常工作于一体
的
软件。
、
、
最近,我一直在寻找一个软件来更好地组织我
的
生活。我发现了
大量
的
项目管理软件,todolist软件和
其他
东西。我真正
需要
的
是一个处理我每天
需要
做
的
三种事情
的
软件:我例行公事
中
的
任务
因此,我
浏览 0
提问于2014-04-15
得票数 7
1
回答
火花:减速器
的
理想数目是多少?
、
我
的
数据大约是300克。如果我使用Hadoop在它上执行一个约简作业,那么180个减少插槽就可以了,并且队列
中
没有
任务
等待。如果我使用同样
的
减少槽数
的
星火,它会在洗牌阶段被卡住,而如果我使用更多
的
插槽,比如说4000,这不会发生,但这将以低效率结束。有什么我可以做
的
吗,比如调优参数,以便我可以使用
与
hadoop相同
的
插槽? 顺便说一下,我
的
集群有15个节点,每个节点有12个核心。
浏览 2
提问于2016-08-24
得票数 1
1
回答
火花
任务
反序列化
时间
、
我正在运行一个
Spark
作业,当查看主UI时,
任务
反序列化
时间
可能
需要
12秒,计算
时间
为
2
秒。让我给出一些背景:
3
-我必须为Postgres使用JDBC驱动程
浏览 2
提问于2015-07-16
得票数 2
回答已采纳
1
回答
SQLite查询优化:
任务
选择重叠给定
时间
窗口
、
、
、
、
我
的
应用程序中有一个SQLite DB,用于存储时态
任务
数据(带有“开始”和“结束”
时间
戳
的
事件)。我
需要
优化
与
给定
时间
窗口重叠
的
任务
的
查询(包括部分或完全重叠窗口
的
任务
)。请注意,对
所有
完全适合窗口
的
任务
的
简单查询非常快,但是由于我也
需要
获得部分和完全重叠
的
任务</
浏览 0
提问于2018-03-28
得票数 1
回答已采纳
2
回答
Memcacheq
与
cronjob
的
内存消耗
、
、
、
与
crontab执行后台
任务
的
方式
相比
,在php上编写一个守护进程(侦听/处理队列)是否会消耗
大量
内存? 我在一个引擎下
的
一台服务器上有大约600家商店。店主运行
的
一些
任务
需要
很多
时间
,所以分叉它们是合理
的
。把一个
任务
放到cron
中
效果很好,我只是不喜欢长达59秒
的
启动延迟(cron
的
限制)。所以我想试试排队系统。我只
浏览 0
提问于2012-02-06
得票数 0
回答已采纳
1
回答
WCF
与
Spark
的
集成
、
、
、
、
我们有在WCF基础设施上运行
的
服务。WCF服务客户端是.net窗口表单应用程序。对于一些
时间
和资源密集型
任务
,我们正在尝试将WCF服务
与
Apache
Spark
集成。WCF服务应该调用Apache
Spark
来执行
任务
。Apache
Spark
支持java而不是C#。我们
需要
一些方法来从WCF服务调用
Spark
来进行数据处理。我们正在尝试以插入式山墙方式添加
spark
。如果在不久
的
浏览 0
提问于2015-12-23
得票数 2
1
回答
是否可以在火花阶段重新排序
任务
?
、
、
、
在我
的
dataframe上运行它
的
计算时,我在
Spark
中看到(我还做了一些测试以确保是这样
的
),
任务
index对应于分区id,
与
上面通过mapPartitionsWithIndex获得
的
id完全相同。因此,
任务
的
执行顺序是增加给定执行器上分区
的
id。 我看到分区
中
的
行数
与
任务
的
执行
时间
之间存在明显
的<
浏览 2
提问于2019-07-26
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
精通Quartz:Java中的时间管理与任务调度专家
从零开始 Spark 性能调优
万亿级数据规模下的倾斜调优
大数据处理框架是怎样的原理
大数据基础:Spark工作原理及基础概念
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券