腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
理解
Spark
中
的
阶段
我正在运行pyspark作业,并且在我
的
本地机器上使用pycharm,当我
的
作业运行时,我在控制台中看到以下输出: [Stage 1:========>(9 + 8) / 64] 我感兴趣
的
是(9+8)/64是什么意思?
浏览 21
提问于2020-12-04
得票数 0
1
回答
星火如何管理
阶段
?
我正在努力
理解
如何在
spark
中
定义作业和
阶段
,为此,我现在正在使用我找到
的
和
spark
的
代码。为了在
spark
上看到它,我不得不多次复制和粘贴文件上
的
文本,因此需要更多
的
时间来处理。以下是
spark
的
输出:现在,我知道有三个作业,因为有三个动作,而且这些
阶段
是由洗牌动作产生
的
,但我不
理解
的
是为什么
浏览 4
提问于2016-12-31
得票数 9
回答已采纳
1
回答
映射/减少
阶段
如何在
Spark
中
工作
我来自MapReduce
的
背景,而且我对
Spark
还是个新手。我找不到一篇解释MapReduce和
Spark
之间架构差异
的
文章。到目前为止,我
的
理解
是MapReduce和
Spark
唯一
的
区别是“内存”处理
的
概念。也就是说,
Spark
有映射/减少
阶段
,它们可能在集群
中
的
两个不同节点上运行。具有相同密钥
的
对被转移到相同
的
减
浏览 0
提问于2015-03-10
得票数 0
1
回答
如何在
Spark
中
命名DataFrame以使DAG图更易于阅读?
、
在
Spark
中
,在几次连接之后,DAG图可能会变得非常复杂,例如:有没有办法让它更容易
理解
,第一,命名
Spark
数据集,第二,用它计算(或帮助计算)
的
数据集标记每个
阶段
,以便我们可以追溯到代码
浏览 0
提问于2018-09-25
得票数 3
1
回答
在PySpark中使用推断模式读取csv时,DAG
中
没有交换操作
、
、
、
我正在用下面的代码读取一个csv文件上面的代码是为每个作业创建一个
阶段
的
两个作业。一个用于读取标头
的
工作,另一个用于推断架构。这是我能
理解
的
。作业,即读取模式,只有一个
阶段
,有许多
浏览 5
提问于2022-09-29
得票数 0
回答已采纳
1
回答
Spark
execution -
spark
执行作业和
spark
操作之间
的
关系
我有一个关于火花执行
的
问题。我
的
问题是哪一个是正确
的
-一个作业集合对应于一个动作,还是每个作业对应一个动作。这里
的
job是指可以在
Spark
execution UI中看到
的
作业。谢谢。
浏览 1
提问于2019-10-30
得票数 1
1
回答
spark
中
的
默认混洗分区值
spark
中
的
默认随机分区值是200个分区。我想澄清
的
是,这个数字是每个输入分区?或者在所有输入分区
中
,输出分区
的
数量将是200个? 我看了几份材料,但没有找到我想要
的
答案。
浏览 1
提问于2019-11-03
得票数 0
1
回答
Spark
DAG可视化曾经有过outgoingEdges吗?
、
我正在查看
Spark
UI DAG可视化代码,发现了以下: val fromThisGraph = nodes.containsshould never happen根据我
的
理解
,内部边缘表示
阶段
内RDD之间
的
边缘,传入边缘
浏览 0
提问于2017-06-28
得票数 1
2
回答
Spark
中
整个
阶段
代码生成
中
的
"stage“与
Spark
的
阶段
有什么关系?
、
我一直在探索
Spark
中
的
全
阶段
代码生成优化(也称为全
阶段
编码元),并且一直在想,在“同时
阶段
”中有多少“
阶段
”来自于火花核心对一个
阶段
(一个火花作业)
的
意义?在
Spark
和
Spark
的
全
阶段
代码生成
阶段
之间有什么技术关系吗?还是更广泛地用来指计算
中
的
“
阶段
”?
浏览 2
提问于2017-12-13
得票数 3
回答已采纳
2
回答
如何在Eclipse
中
并行运行火花处理?
、
、
在我
的
开发环境(Eclipse)上尝试应用程序时,我希望使用多个执行器并行运行
Spark
应用程序。似乎火花引擎序列化了所有的任务,并使用一个执行器运行它们。是否有选项可以在Eclipsewithspark.master=local
中
并行运行两个或多个任务?
浏览 1
提问于2014-12-20
得票数 3
回答已采纳
1
回答
在
Spark
中
对DataFrame进行排序时,幕后会发生什么?
在
Spark
中
对DataFrame进行排序时,幕后会发生什么?例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么,但是我很好奇当您排序时会发生什么
浏览 2
提问于2018-08-14
得票数 0
1
回答
写入HDFS时Apache
spark
中
的
任务数
、
我不明白火花是如何决定不同
阶段
任务数量
的
。val c1c8new = { c1c8.
浏览 5
提问于2021-07-21
得票数 0
回答已采纳
1
回答
为什么web用户界面在作业和
阶段
页面
中
显示不同
的
持续时间?
、
我正在运行一个虚拟
的
spark
作业,它在每次迭代
中
执行完全相同
的
一组操作。下图显示了30次迭代,其中每个作业对应于一个迭代。可以看到,除了作业0、4、16和28之外,持续时间始终在70ms左右。第一次加载数据时,作业0
的
行为是预期
的
。 我想知道
Spark
把(2000 - 64)毫秒花在工作16上了吗?
浏览 2
提问于2017-06-26
得票数 1
2
回答
为什么火星执行器
的
发射会出现延误?
、
当我试图优化一个火花工作时,我很难
理解
第二个和6-7s第三和第四执行者
的
发射延迟3-4秒。 这项工作分为三个
阶段
。正如所见,第二、第三和第四遗嘱执行人仅在第二
阶段
增加。 下面是第0
阶段
的
快照。 随着第一
阶段
的
结束。 执行者3和4(对第二个工人)花费
浏览 0
提问于2020-01-26
得票数 1
1
回答
理解
火花异步操作
、
、
我有一个用于
Spark
的
Java代码: SparkConf sparkConf = new SparkConf().set("
spark
.scheduler.mode", "FAIR");我在等待火花在同一时间做两个不同
的
动作。但是在星火应用程序UI
中
,我看到了两个
阶段
,但其中一个
阶段
等待开始,直到另一个
阶段
完成。我在等待两个不同
的
阶段
同时工作,我错了吗?foreach
浏览 4
提问于2017-09-21
得票数 2
回答已采纳
2
回答
执行顺序和缓存需求
、
、
、
、
的
tasks
的
DAG
中
,有两个分支,在创建rdd1之后。如果是,我们是否可以假设在计算rdd3时使用
的
rdd1仍然在内存
中
处理?或者我们必须缓存rdd1,以防止重复加载它?更一般
的
情况是,如果DAG看起来像这样: 我们是否可以假设两个分支都是并行计算
的
,并且使用相同
的
rdd1副本?或者
Spark
driver会一个接一个地计算这些分支,因为这是两个不同
的
阶段
?我知道在执行之前,
spark<
浏览 1
提问于2018-05-08
得票数 2
1
回答
星星之火UI,SQL选项卡
的
含义是什么?
如果我
的
理解
是正确
的
,火花申请可能包含一个或多个工作。作业可以分为
阶段
,
阶段
可以划分为任务。我或多或少可以在星火用户界面
中
遵循这一点(或者至少我认为是这样)。但我对SQL选项卡
的
含义感到困惑。特别是:为了
理解
,我一直在列举一些例子,
浏览 3
提问于2021-07-28
得票数 1
2
回答
写入Cassandra
的
Spark
作业在最后
阶段
挂起
、
我使用
Spark
将2100万条记录插入到Cassandra表
中
。
spark
作业大约需要一个小时,并成功插入所有记录,但在最后
阶段
(62/63)挂起。我
的
Spark
属性:
spark
.executor.cores 1
spark
.executor.memory4g 将记录插入到Cassandra并在最后<e
浏览 1
提问于2018-06-23
得票数 0
2
回答
为什么在按组操作期间我
的
洗牌分区不是200(默认
的
)?(火花2.4.5)
、
、
我是新
的
火花,并试图
理解
它
的
内在。因此,我从s3读取一个小
的
50 to
的
拼板文件,然后按组执行,然后保存回s3。当我观察
Spark
时,我可以看到为此创建
的
3个
阶段
,第1
阶段
:分组
的
洗牌
阶段
(12项任务)代码示例: df =
spark
.read.format所以,默认<em
浏览 2
提问于2020-08-06
得票数 5
回答已采纳
3
回答
Spark
如何在内部工作
我知道
Spark
可以使用Scala、Python和Java来操作。此外,RDDs还用于存储数据。 但是请解释一下,
Spark
的
架构是什么,它是如何在内部工作
的
。
浏览 0
提问于2015-06-07
得票数 38
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券