腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
Spark
中
正确
使用
累加器
来
得到
正确
的
答案
?
、
、
我是scala和
spark
的
新手。我想在一个函数内
的
spark
中
使用
累加器
来
递增,因为该函数被map函数调用。我有一个RDD,它
的
名称是vertices,并且RDD
的
每一行都有一个tuple2、ID及其属性(键、值),例如: (1,1).. (34,1) 我想
使用
累加器
在关键字%2等于零时递增如果它等于0,
累加器
将递增1,我们将有一个键等于ID
的</em
浏览 25
提问于2019-08-28
得票数 1
回答已采纳
3
回答
什么时候蓄能器才是真正可靠
的
?
我想
使用
累加器
来
收集一些关于我正在操作
的
星火作业数据
的
统计数据。理想情况下,当作业计算所需
的
转换时,我会这样做,但是由于
Spark
将在不同
的
情况下重新计算任务,
累加器
将不会反映真正
的
指标。以下是文档对此
的
描述: 对于仅在操作内部执行
的
累加器
更新,
Spark
保证每个任务对
累加器
的
更新只适用一次,即重新启动<em
浏览 6
提问于2015-04-07
得票数 52
回答已采纳
1
回答
火花蓄能器不工作
、
、
、
我希望
使用
累加器
从数据
中
获得关闭订单
的
数量。但是它给了我不
正确
的
答案
,只是0。有什么问题吗?我用
的
是霍顿工作沙箱。代码在下面。我正在
使用
火花-提交。,我
得到
了零。
spark
-submit --master yarn closedCounter.pyUpDate: rdd.foreac
浏览 1
提问于2018-02-04
得票数 0
回答已采纳
2
回答
HashMap作为星火流
中
的
广播变量?
、
、
分类键值在HashMap
中
的
程序开始时加载.因此,需要将每个传入
的
数据包与这些密钥进行比较,并相应地进行标记。如
何在
所有
使用
HashMap
的
火花工作者上共享我
的
HashMap。或者,是否有更好
的<
浏览 0
提问于2015-06-10
得票数 8
回答已采纳
1
回答
如
何在
Azure数据库中使我
的
火花
累加器
统计数据可靠?
、
、
、
、
我正在
使用
火花蓄能器收集每条管道
的
统计数据。在一个典型
的
管道
中
,我会读取一个data_frame:df.write.format(delta).option("header",'true').
浏览 5
提问于2021-12-08
得票数 1
回答已采纳
1
回答
火花
累加器
值不按任务读取
、
、
我正在初始化一个
累加器
然后在map函数
中
,我尝试增加
累加器
,然后
使用
累加器
值
来
设置变量。accum.add(1); }); 但是我
得到
了下面的错误16/03/14 09:12:58错
浏览 3
提问于2016-03-14
得票数 2
回答已采纳
2
回答
如
何在
使用
Spark
执行SQL时,在hive
中
获取partitionId或taskContext?
、
、
、
例如,我们
使用
Spark
执行下面的SQL,我们需要my_udf(row)返回
Spark
中
的
分区id。temporary function my_udf as 'com.my.MyUDF'; 我已经知道如何让taskId在Hive
中
在MR engine:
中
执行,但是在
Spark
中
执行它并不有效。请告诉我如何获得partitionID或taskC
浏览 3
提问于2021-06-22
得票数 1
回答已采纳
2
回答
为什么员工节点看不到对其他工作节点上
累加器
的
更新?
、
在地图操作
中
,我
使用
LongAccumulator作为共享计数器。但是,我似乎没有
正确
地
使用
它,因为工作节点上
的
计数器状态没有被更新。,当应用程序在多个工作节点中运行时,它应该工作得很好:
累加器
是只通过联想和交换操作“添加”
的
变量,因此可以有效地并行支持。它们可以用于实现计数器(
如
MapReduce)或和。本机支持数值类型
的
累加器
,程序员可以添加对新类型
的
支持。但是,当计数器在两个不同
的
浏览 5
提问于2017-05-04
得票数 5
回答已采纳
1
回答
如何将星火
的
累加器
传递给函数?
、
、
、
我想做这样
的
事。在上面的代码
中
,the_accumulator_ojbect
的
位置应该是什么?写ac还行吗?同时,在函数
中
{} 在上面的函数
中
,TypeOfAccumulator
的
位置应该是什么?
浏览 3
提问于2016-08-03
得票数 4
回答已采纳
1
回答
火花蓄能器:
正确
的
累加器
有时是多个,还是总是一个?
、
、
我试图
使用
星火
累加器
删除一个组
的
查询,它
的
性能很差。import org.apache.
spark
._在我
的
累加器
<em
浏览 3
提问于2016-02-13
得票数 0
回答已采纳
1
回答
Windows批处理脚本开始行
中
的
双引号
、
、
我已经看过了已经提供
的
答案
,但我仍然被卡住了。但是,当我尝试编辑批处理脚本以添加那些用引号括起来
的
参数时,根据我尝试添加双引号
的
方式和位置等,我
得到
了各种错误。所以我
的
问题可能是我不能转义引号和
使用
环境变量?最终
浏览 1
提问于2010-02-13
得票数 3
回答已采纳
1
回答
火花
累加器
,我总是
得到
0值
我
使用
LongAccumulator
来
计算我在Cassandra中保存
的
记录
的
数量。
Spark
Web UI, ok too.record.data1)} }我看到代码执行
正确
,我将数据保存在Cassandra
中
,当我最终打印
累加器
时,值是0,但如果我在map函数
中
打印它,我可以看到
正确</em
浏览 0
提问于2018-05-10
得票数 3
1
回答
在foreachPartition
中
执行Mysql查询
spark
运行缓慢
、
我想在
spark
中
的
foreachparition
中
执行mysql查询,并最终将所有查询结果放到一个数据帧
中
。看起来是这样
的
: val result我注意到在MysqlService
中
,我每次都创建db会话,这可能是不
正确
的
。有没有更好
的
方法呢
浏览 52
提问于2018-06-09
得票数 0
1
回答
使用
结构化流
的
火花
累加器
、
、
在我
的
结构化流工作
中
,我正在更新updateAcrossEvents方法
中
的
火花
累加器
,但是当我试图在我
的
StreamingListener
中
打印它们时,它们总是0。mapGroupsWithState(GroupStateTimeout.ProcessingTimeTimeout())( ) 编辑:更详细地描述问题
的
更多信息
累加器
在“updateAcrossEvent
浏览 0
提问于2020-05-14
得票数 0
1
回答
Spark
SQL返回所有空值,而直接蜂巢工作和通过火花工程
的
直接Parquet返回
、
、
在Hive
中
定义
的
外部表
Spark
出现了一个奇怪
的
问题 CREATE EXTERNAL TABLE ... STORED AS PARQUET...")引用
Spark
中
的
表,就会
得到
正确
的
行计数,但是每个值都是空
的
。当我通过Beeline查询表时,我
得到
了
正确
的
值。此外,如果我
使用
spark
.read
浏览 1
提问于2021-02-09
得票数 0
1
回答
Spark
worker抛出错误SendingConnection:将SendingConnection读取到ConnectionManagerId时出现异常
、
、
我正在尝试
使用
spark
执行一个简单
的
应用程序示例代码。
使用
spark
submit执行作业。ensure that workers are registered and have sufficient memory该作业提供了
正确
的
结果5g
spark
.master
spark
://<master
浏览 2
提问于2015-03-09
得票数 0
2
回答
如
何在
Tensorflow
中
得到
线性回归
的
正确
答案
?
、
、
、
、
我没有
得到
线性回归问题
的
输出。这是一个简单
的
单变量线性回归问题。我用过Kaggle
的
线性回归数据集,它没有给出期望
的
output.It,而是给出了权重和偏差
的
nan值。plt.scatter(X_train,Y_train)它正在提供产出:权重和偏倚
得到
了
浏览 0
提问于2018-03-18
得票数 1
回答已采纳
1
回答
如何拦截驱动器上
累加器
的
部分更新?
、
、
Spark
1.5.1 + Java 1.8 //accumulator.add(recoords.length); // ...在驱动程序节点上,有一个线程监视
累加器
值即使
累加器
使用
延迟值设置,也应该
正确
地更新它,因为我在驱动程序节点线程
中
定期读取该值。 我是不
浏览 1
提问于2016-01-26
得票数 4
回答已采纳
2
回答
将
累加器
传递给
spark
udf
、
、
、
这是我正在尝试做
的
事情
的
一个简化版本。我想在我
的
udf
中
做一些计数。这样做
的
一种方法是将长
累加器
传递给udf,并在deserializeProtobuf函数
的
if else循环中递增
累加器
。有没有更好
的
办法?
浏览 3
提问于2021-03-23
得票数 0
1
回答
如
何在
R
中
得到
111111111 * 111111111
的
正确
答案
?
、
我给我
的
女儿看了两个111.111数字乘法
的
魔术图案。从最后一行可以看出,
答案
显然是错误
的
,应该是1234567898765432*1*,而不是1234567898765432**。有人说它可能是由整数溢出引起
的
。这里有两个问题: 谢谢。
浏览 3
提问于2019-10-20
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
Spark踩坑记:共享变量
推荐7款好用的Python工具
基于 Spark 的文本情感分析,以《疯狂动物城》为例
每天读一本:Spark快速大数据分析
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券