腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
任务
添加到
ForEachPartition
后
无法
序列化
任务
、
、
当我试图在spark structured streaming中实现Apache pulsar Sink时,我在spark中收到了一个
任务
不可
序列化
异常。我已经尝试
将
PulsarConfig外推到一个单独的类,并在JDBC函数中调用它,这是我通常对.
foreachPartition
连接和其他集成到spark structured streaming中的系统所做的操作$1.apply(RDD.scala:925) at org.apache.spark.rdd.RDD$$anonfun$
foreachPart
浏览 78
提问于2019-09-15
得票数 0
回答已采纳
2
回答
如何创建共享JDBC连接以在执行器上使用?
、
、
org.apache.spark.SparkException:
任务
不可
序列化
object ExecutorConnection { } 我有多个具有不同模式的数据帧(df1、df2、df3),其中我计划在驱动程序级创建连接,并
序列化
连接并将其用于所有数据帧
浏览 0
提问于2020-01-15
得票数 0
2
回答
在Spark流作业中启动一次JDBC连接
、
、
、
环境 kafkaStream.foreachRDD (new VoidFunction<JavaRDD<String>>() { public v
浏览 8
提问于2017-01-06
得票数 3
回答已采纳
1
回答
使用SparkML预测模型时的
任务
序列化
问题
、
、
、
在运行此代码时,我会得到
任务
序列化
错误,其中myDstream是DStream[String],session是String //... }) 对象UtilsPredictor是可
序列化
的。但最奇怪的是,
序列化
错误是由行newDstream.foreachRDD(session => {触发
浏览 0
提问于2017-03-23
得票数 1
回答已采纳
3
回答
如何从Dataset中获取值并将其存储在Scala值中?
、
、
我试着用但这就给了我
任务
,而不是可
序列化
的异常,。因此,为了避免这种情况,我开始使用foreachPrtition。scala> avgsessiontime.
foreachPartition
(x => x.foreach(println))但当我这么做的时候 avgsessiontime.
foreachPartition
avgsessiontime.
foreachPartition
(x => f
浏览 6
提问于2017-09-27
得票数 0
1
回答
在主管的情况下,如何在执行者/
任务
之间进行RDD的重组。失败还是动态洗牌?
、
我正在考虑
将
一组可抢占的实例
添加到
我在Google上运行的Spark作业的工作池中,但我正在试图了解万一这些实例中的一些被杀死会发生什么。但是,它究竟如何处理由自定义编写的函数(如.forEach()和.
forEachPartition
() )处理的RDD重新分配呢?如果正在处理这样的
任务
的员工被杀死,那么到底会发生什么呢?具体来说,想象一下类似于以下内容的.
forEachPartition
()代码:{ RD
浏览 2
提问于2018-08-22
得票数 1
1
回答
与自定义Spark结构化流接收器不并行
、
、
、
我正在编写一个自定义火花结构化流宿写事件从Kafka读取到谷歌BQ(大查询)。下面是我写的代码。下面是我的自定义Big Query Sink的实现。import org.apache.spark.sql.execution.streaming.Sink import org.apache.spark.sql.sources.{DataSourceRegister, Strea
浏览 6
提问于2021-02-28
得票数 0
回答已采纳
1
回答
Appengine键
序列化
瞬态appIdNamespace
、
、
、
我正在名称空间A中创建一个A,并将其作为字段
添加到
DeferredTask中,以便在不同的名称空间B中运行。然后将该
任务
发送到队列,并在另一个框上执行。但是,由于键的appIdNamespace字段是瞬态的,而且DeferredTask使用
序列化
,所以在从名称空间B运行时,希望appIdNamespace字段在反
序列化
时为null (从而初始化为具有名称空间值但相反,当
任务
在命名空间A中运行时,键在反
序列化
后
的appIdNamespace字段中仍然
将
B
浏览 2
提问于2014-08-06
得票数 1
回答已采纳
1
回答
第三方库出现
任务
序列化
错误
、
我试图解决Spark 2.2的
序列化
问题。这个错误是众所周知的,我通常使用
forEachPartition
或mapPartitions来解决它。然而,现在这种方法不起作用了。= modCol x => { })但是,我收到c
任务
序列化
错误
浏览 0
提问于2018-01-09
得票数 0
1
回答
System.Json.Net -反
序列化
Task<T>失败(没有无参数构造函数)
、
、
、
我遇到了一个问题,
无法
使用System.Text.Json (.Net 5)
将
字符串反
序列化
为
任务
。我
无法
将
实际的项存储在缓存中,因为对对象的任何后续操作都会导致缓存的项被操作,从而影响所有进一步的使用。因此,我存储对象的
序列化
副本。 关于表演..。我读了一篇文章(可能是一段视频),其中Stephen描述了缓存
任务
的性能优势。本文介绍了的详细内容。无论如何,我想我会尝试利用这一点(它在没有
序列化
的情况下完美地工作),在我的本地缓存“层
浏览 2
提问于2020-09-25
得票数 0
1
回答
将
RDD
foreachPartition
激发到S3
、
我面临以下
任务
:获取一个RDD,根据一定的条件对其进行分区,然后在一个S3桶中的不同文件夹中编写多个文件。 如果我使用AmazonS3Client,就会得到一个java.io.NotSerializableException,因为代码是从火花驱动程序发送给工作人员的,所以需要
序列化
,显然如果我使用saveToTextFile,我
将
面临一个类似的问题。问题是SparkContext sc也没有
序列化
(这是正确的)。rdd.
foreachPartition</em
浏览 1
提问于2016-08-03
得票数 3
回答已采纳
2
回答
这是TPL数据流的作业吗?
、
、
、
、
任务
2-n:这些是工作者
任务
,每个
任务
都在字节数组的传入集合(来自Tasks1)上操作,并反
序列化
字节数组,按特定条件对其进行排序,然后
将
结果对象的集合(每个字节数组反
序列化
为此类对象)存储在并发字典中这个
任务
主要是检查下一个预期的collectionID是否已经存储在并发字典中,如果是,则取出它,将其
添加到
最终队列中,并检查并发字典中的下一个集合。我似乎
无法
设计一个设计,因此
无法
开始使用,因为我从未使用过TPL D
浏览 2
提问于2012-06-15
得票数 12
回答已采纳
1
回答
Apache中的数据交换查询
阅读一本关于Apache的书,它有以下内容: 如果发送方和接收方都在同一个JVM进程中,为什么需要
序列化
?
浏览 2
提问于2020-04-29
得票数 0
回答已采纳
1
回答
星火卡桑德拉与资源分配
、
、
、
我的理解是,默认的spark.cassandra.input.split.size_in_mb是64MB.It,意味着为从Cassandra读取数据而创建的
任务
数量将是Approx_size/64。假设表大小为6400 MB (我们只是读取数据、执行
foreachPartition
并将数据写回DB),因此
任务
数将为100个。但是当我在纱线上执行作业的时候,如果我特别设置了--num-executors 3,-executor-core 2,那么这将为作业创建最多6个
任务
。现在,当执行时,conf设置会覆盖100个
浏览 3
提问于2022-02-08
得票数 0
回答已采纳
1
回答
不必要的额外
forEachPartition
导致额外的时间来完成
任务
、
、
因此,我
将
时间范围划分为块,并在分块的Hbase中扫描列,如sparkSession.sparkContext.parallelize(chunkedTimeRange.toList)]) => x: Unit) 这个
forEachPartition
不必要地执行两次。一个阶段约2.5分钟(128项
任务
),另一阶段40多项(200
浏览 1
提问于2022-08-30
得票数 0
1
回答
星星之火程序结构:类中的广播变量与最终静态和外部静态属性
、
、
、
如果我有外部类来处理一些计算(主要是为了可读性),那么我更愿意以静态的方式访问这些方法还是在rdd.
foreachPartition
(....中实例化这些类?
浏览 2
提问于2016-06-06
得票数 1
回答已采纳
2
回答
火花流: NullPointerException inside
、
、
rdd.isEmpty){ println("First") 谢谢
浏览 3
提问于2016-02-02
得票数 3
回答已采纳
1
回答
添加了一个新的VSTS扩展到市场,可以安装该扩展,但不显示在蔚蓝管道
任务
、
、
、
在VSTS市场中添加了一个新的vsts扩展 我能够在组织上安装这个扩展,但
无法
在
任务
列表中看到这个扩展
添加到
管道中。
浏览 6
提问于2022-10-06
得票数 1
回答已采纳
2
回答
为什么Django REST框架的HyperlinkedModelSerializer表单URL不能呢?
、
我要说的是:class TaskSerializer(serializers.HyperlinkedModelSerializer): model$> model = Task field
浏览 3
提问于2015-10-18
得票数 3
回答已采纳
1
回答
修改Javascript中的ArrayList会导致Camunda中的
序列化
失败
、
、
、
我创建了一个BPMN协作模型,其中包含一个Javascript类型的脚本
任务
。Serialization Data Format: application/x-java-serialized-object然后,我用以下代码传递了脚本
任务
然后,我修改了脚本
任务
如下:arr.add({ "id" : 2 }); execution.setVariab
浏览 2
提问于2015-10-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
SparkStreaming&Kafka——Direct方式
Java反序列化漏洞:在受限环境中从漏洞发现到获取反向Shell
在Go 1.11中调试延迟
Spark关键性能考量
如何在DJANGO里,向有外键的DB里插入数据?
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券