Apache Spark:特征调用实现在列上抛出java.io.NotSerializableException

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

： val result = CurrentCost(df).aggregate 这将根据调用的实现生成运行时异常。对于实施1： Caused by: java.io.NotSerializableException: org.apache.spark.sql.Column Serialization stack:- object not serializable (class: org.apache.spark.sql.Column, value: CASE WHEN ((NOT de

浏览 11提问于2019-12-14得票数 0

回答已采纳

2回答

为什么这个Spark代码抛出java.io.NotSerializableException

、、、、

为什么以下选项不起作用：import spark.implicits._上面的代码抛出了一个java.io.NotSerializableException</

浏览 8提问于2017-05-07得票数 4

1回答

UDF返回"sc不可序列化“。

、、

我有一个来自Cassandra数据库的数据集，使用下面的代码片段创建，然后我尝试在其中一个列上创建一个UDF。但是，在这样做时，我会得到错误的java.io.NotSerializableException: org.apache.spark.SparkConf。sqlContext = new SQLContext(sc);val dfSurvey = sqlContext.read.format("org.apache.s

浏览 0提问于2017-03-13得票数 0

回答已采纳

1回答

从火花连接到SAPHANA

、、、

在调用数据框架对象的任何操作时，当调用java.io.NotSerializableException.In时，将抛出NotSerializableException。:任务中的异常不能在、org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:315)、org.apache.spark.util.ClosureCleaner$.org$apache$<

浏览 0提问于2016-03-29得票数 2

3回答

org.apache.spark.SparkException:不可序列化的任务- JavaSparkContext

、、

：at org.apache.spark.util.ClosureCleaner$.ensureSerializableorg.apache.spark.SparkContext.clean(SparkContext.scala:1478)at o

浏览 4提问于2015-06-08得票数 5

回答已采纳

1回答

星火任务不可串行化

、、、、

当我调用"recommendationProducts“方法时，总是会得到一个错误。$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:288)at org.apache<

浏览 4提问于2017-10-25得票数 2

回答已采纳

1回答

SparkException:不可序列化的任务- Java

、、

当我试图显示Dataset值时，它也会抛出一个错误。我做错什么了？Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:403) at org.apache.spark.util.ClosureC

浏览 5提问于2022-07-11得票数 0

2回答

spark/或spark外部封装中的多项式回归

、、

请进一步阅读在分析了Spark 2.0之后，我得出结论，使用spark (单独使用spark )多项式回归是不可能的，那么spark是否有一些扩展可以用于多项式回归？- Rspark它是可以做到的(但正在寻找更好的替代方案)-spark中的RFormula确实可以预测，但系数不可用(这是我的主要要求，因为我主要对系数值感兴趣)

浏览 0提问于2016-08-10得票数 8

1回答

星火外壳:不可序列化的任务

、、、、

使用Spark，我正在尝试从MySQL获取一些I。import java.sql.._, org.apache.spark.SparkContext, org.apache.spark.SparkContext._, org.apache.spark.SparkConf val myRDD现在，对于每个获取的id，我需要对Cassandra中

浏览 5提问于2016-08-23得票数 1

1回答

通过Spark* RDDs向Cassandra写入SimpleFeature*

、

下面调用的createFeature()函数在独立的单元测试中运行良好，我有另一个单元测试调用它，并使用它生成的SimpleFeature通过GeoMesa api成功地写入到Cassandra： import","org.apache.spark.serializer.KryoSerializer").set("spark.kryo.registrator",classOf[GeoMesaSparkKryoRegistratorSpark</em

浏览 0提问于2018-02-12得票数 0

1回答

Scala模块需要特定版本的Spark数据绑定

、、、

我遇到的问题是当这行代码被调用时 Dataset<Row> parquetFileDF = sparkSession.read().parquet(parquePath); 抛出以下错误 Caused:spark-core_2.12:3.0.0' implementation'org.apache

浏览 189提问于2020-10-28得票数 5

1回答

spark java.io.NotSerializableException: org.apache.spark.SparkContext

、、

我正在尝试实现检查存在的记录接收到的消息从卡夫卡在火花中火花流，现在当我运行RunReadLogByKafka对象，有一个SparkContext的NotSerializableException被抛出{SparkContext, SparkConf}import org.apache.spark.streamingimport org.apache.spar

浏览 0提问于2016-02-25得票数 1

1回答

Spark 2.1 -类SpecificUnsafeProjection的常量池已超过64KB的JVM限制

、、

请原谅我的无知，因为我对pyspark和Spark还不熟悉。我正在将Spark从1.6.3升级到2.1，在使用pyspark运行我们的模型时遇到了问题。在运行抛出错误的python脚本时，我们所要做的就是读入一个JSON，并使用如下所示将其转换为DF在这个读取之后，我们在DF上执行一些操作，在列上运行一些UDF，然后最终希望写回JSON，然后JSON将被提取并写入Apache

浏览 8提问于2018-12-04得票数 0

3回答

如何将自定义函数应用于列(在添加列时会给出“任务不可序列化”)？

、、

我必须附加这个由方法'strToInt‘生成的列，它被证明是不可序列化的。 var str = new Array[String](3) var i = 0 if (str(i) == colVal) { return i } throw new IllegalS

浏览 1提问于2017-05-29得票数 1

1回答

Spark RDD: AggregateByKey抛出不可序列化的任务，我看不到不可序列化的对象

、、、、

at org.apache.spark.rdd.PairRDDFunctions.:112) at org.apache.spark.rdd.PairRDDFunctions.aggregateByKeyat big_data.job_one.App$.main(App.scala:116) at big_data.job_one.App.main(App.s

浏览 81提问于2020-05-04得票数 0

2回答

Oozie工作流程内存不足的火花应用程序报告

、、、、

>--packages com.databricks:spark-csv_2.10:1.5.0</spark-opts> </action></workflow-app&g

浏览 1提问于2017-03-14得票数 0

回答已采纳

1回答

为什么我的数据类型在作为Int开始时是Any？

、、

我正在读入一个带有权重的有向边(源节点和目标节点)的文件；第一部分似乎工作得很好：import org.apache.spark.SparkContext._import org.apache.spark.sql.SQLContext import org.apache.spark<

浏览 0提问于2018-03-11得票数 1

1回答

TypeError时调用火花MLlib LogisticRegressionWithLBFGS.train

、、、

我试图用一个用于解决多类逻辑回归的训练数据来调用LogisticRegressionWithLBFGS.train从火花MLlib。reg.LabeledPoint(x[0]-1,x[1:]))LabeledPoints的输出(2行)是：(我不输出完整的标签和特性，因为它是2x401标签-特征矩阵，其特征占据在col 401中，而标签位于col 0中)。现在当我打电话 lrm=LogisticRegressionWithLBFGS.train(trainingData,numCl

浏览 2提问于2017-07-15得票数 0

回答已采纳

2回答

星火scala:在大量列上使用简单的UDF降低性能

、、

现在只剩下两个步骤：需要使用columns.Convert的相同子集对每个X_i执行特定的操作，每个X-i列都要进入FloatType.最低代码：import org.apache.spark.sql.types.FloatType val foo = (FloatType))df.show()Exception in thread "main" java.la

浏览 8提问于2022-07-25得票数 1

回答已采纳

1回答

序列化的Scala反射(结束星火)-符号不可串行化

、、、

首先，我使用Scala2.10.4，上面的示例在Spark1.6中运行(虽然我怀疑Spark与此有任何关系，但这只是一个序列化问题)。所以我的问题是:假设我有一个特征Base，它是通过两个类B1和B2实现的。现在，我有了一个由类集合扩展的通用特性，其中一个是Base的子类型，例如(这里我保留Spark关于RDD的概念，但一旦序列化，它可能实际上是另一个特性；不管实际上是什么结果)： trait Foo[T]现在，我需要一个对象，它将接受一个RDD[T] (假设这里不包含，它只是一个简化的

浏览 3提问于2016-02-11得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云