在RDD上使用take方法时，Apache Spark抛出反序列化错误 - 腾讯云开发者社区

、

我对Java 8和Spark2.1.1有问题我有一个(有效的)正则表达式保存在一个名为"pattern“的变量中。当我尝试使用这个变量过滤从文本文件中加载的内容时，会抛出一个SparkException :任务不可串行化。有谁可以帮我？以下是代码： JavaRDD<String> lines = sc.textFile(path); JavaRDD<String> filtered = lines.filter(new Function<String, Boolean>() { @Override publi

浏览 0提问于2018-08-18得票数 2

回答已采纳

1回答

如何将BufferedImage RDD保存为HDFS文件

、、、、

我需要从HDFS读取图像，做一些处理，并将图像保存回HDFS。这一过程必须在火花中进行。我正在以sc.binaryFiles的形式读取图像文件，然后将它们转换为缓冲的图像并执行一些操作。但是，当我试图将RDDBufferedImage保存到FSDataOutputStream时，会出现“任务不可序列化”错误。 //read binary files from RDD val images = sc.binaryFiles("/tmp/images/") //images: org.apache.spark.rdd.RDD[(String, org.apa

浏览 3提问于2019-07-04得票数 1

回答已采纳

1回答

org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainDoubleDictionary GCP UnsupportedOperationException：

、、、、

我是新来的火种，所以希望有人能帮忙。我试图读取存储在GCP桶上的拼板文件。该文件按日期进行分区，因此，例如bucket-name/year={}/month={}/day={} 对于给定的文件，我们有以下模式描述：直到3月份，我们以前在浮动数据类型中使用x和y列。 3月份以来，这2列现在都是双数据类型的。从我所看到的来看，吡火花在评估浮点数方面没有任何问题，而双数据类型是兼容的数据类型。(我在网上发现的类似的错误示例与数据类型不兼容有关，例如字符串和浮点数)，但是，如果我们试图读取该文件的所有可用数据，就会遇到这个奇怪的问题： #i.e. read all the data

浏览 4提问于2021-06-09得票数 0

2回答

为什么这个Spark代码抛出java.io.NotSerializableException

、、、、

我想在RDD上的转换中访问伴生对象的方法。为什么以下选项不起作用： import org.apache.spark.rdd.RDD import spark.implicits._ import org.apache.spark.sql.{Encoder, Encoders} class Abc { def transform(x: RDD[Int]): RDD[Double] = { x.map(Abc.fn) } } object Abc { def fn(x: Int): Double = { x.toDouble } } implicit def abcEncoder

浏览 8提问于2017-05-07得票数 4

1回答

序列化RDD

、、

我有一个RDD，我正在尝试序列化，然后通过反序列化进行重构。我正在试着看看这在Apache中是否可行。 static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = SparkEnv.get().closureSerializer().newInstance(); static ClassTag<JavaRDD<String>> tag = scala.reflect.ClassTag$.MODULE$.apply(Java

浏览 3提问于2015-04-10得票数 4

回答已采纳

1回答

如何将映射转换为列

、、、

我用的是笔记本。所以火花基本上是在互动模式下运行的。这里我不能使用闭包变量，因为齐柏林飞艇抛出了org.apache.spark.SparkException: Task not serializable，因为它试图序列化整个段落(更大的闭包)。因此，如果没有闭包方法，我只能将map作为列传递给UDF。我收集了一张从已销毁的RDD中收集的地图： final val idxMap = idxMapRdd.collectAsMap 它正被用于星火变换中： def labelStr(predictions: WrappedArray[Double], idxMap: Map[Double, St

浏览 3提问于2016-11-14得票数 0

2回答

是什么导致排序函数在spark中可串行化？

、

我得到的任务不能序列化为下面的代码。但是，如果直接传递函数，则不会出现任何错误。 abstract class MyAbstractClass[T, SortOrder](implicit ord: Ordering[SortOrder]) { def getSorterFunc(): (T) => SortOrder def sort(rdd: RDD[List[T]]) = { val sortFunc = getSorterFunc() rdd.map(x => x.sortBy(sortFunc)) } } object SampleObjec

浏览 7提问于2016-10-05得票数 1

回答已采纳

1回答

java.io.NotSerializableException: org.apache.spark.SparkContext序列化堆栈：-对象不可序列化

、、

该错误可以在火花壳中再现。基本上，我定义了一个具有生成RDD的方法的类，然后在RDD上执行一个映射操作，这将生成序列化错误。如果我没有方法，只有执行方法步骤的语句，那么一切都正常。代码在这里，可以在shell中运行，我定义了一个类，然后实例化这个类。首先是进口 import java.nio.file.{Files} import java.io._ import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import scala.io.Source import scala.collection.muta

浏览 1提问于2015-08-18得票数 4

1回答

在Spark JDBC中使用区分大小写的partitionColumn

、

使用Spark的JDBC数据源访问Postgresql时，属性partitionColumn用作不区分大小写的属性，并引发异常 CREATE TABLE data USING org.apache.spark.sql.jdbc OPTIONS (url 'jdbc:postgresql://localhost:5432/postgres', dbtable 'public.datios', lowerBound '0', upperBound '10', partitionColumn 'COD_PERSON',

浏览 0提问于2019-08-02得票数 0

1回答

org.apache.spark.SparkException:任务不可序列化java

、、

我试图通过foreachpartition将结果添加到mysql中，但得到错误org.apache.spark.SparkException: Task not serializable java。公共类插入实现Serializable{ transient static JavaSparkContext spc; public static void main(String gg[]) { Map<String, String> options = new HashMap<String, String>(); options.put("

浏览 7提问于2016-09-20得票数 2

1回答

星火任务不可串行化

、、、、

我已经尝试了在StackOverflow上找到的所有解决这个问题的方法，但是，尽管如此，我还是无法解决它。我有一个"MainObj“对象，它实例化了一个”推荐“对象。当我调用"recommendationProducts“方法时，总是会得到一个错误。下面是该方法的代码： def recommendationProducts(item: Int): Unit = { val aMatrix = new DoubleMatrix(Array(1.0, 2.0, 3.0)) def cosineSimilarity(vec1: DoubleMatrix, vec2: Double

浏览 4提问于2017-10-25得票数 2

回答已采纳

1回答

星星之火中的Storagelevel MEMORY_AND_DISK_2()抛出异常

、

任何人都能解释rdd的存储级别是如何工作的. 当我使用具有存储级别的持久化方法(StorageLevel.MEMORY_AND_DISK_2())时，我得到了堆内存错误，但是当我使用缓存方法时，我的代码工作得很好。按照spark文档缓存，使用默认存储级别(MEMORY_ONLY)持久化RDD。我的代码，在那里我得到堆错误 JavaRDD<String> rawData = sparkContext .textFile(inputFile.getAbsolutePath()) .setName(

浏览 3提问于2015-05-06得票数 3

回答已采纳

1回答

SparkContext在同伴对象中不可串行化

、、、

我目前正在尝试扩展一个使用Scala和Spark的机器学习应用程序。我使用的是我在Github上找到的Dieterich Lawson以前的一个项目的结构这个项目基本上使用SparkContext来构建一个训练样本块的RDD，然后对其中的每一个集执行局部计算(例如求解一个线性系统)。我遵循同样的方案，但是对于我的本地计算，我需要在每个训练样本块上执行local算法。为了做到这一点，我想使用来自mlLib的L算法，该算法具有以下签名。 runLBFGS(RDD<scala.Tuple2<Object,Vector>> data, Gradient gradient,

浏览 4提问于2015-07-16得票数 6

回答已采纳

3回答

Scala:不可序列化错误的任务

、、

我正在使用IntelliJ社区版与Scala插件和火花库。我仍然在学习星火，并且正在使用Scala工作表。我编写了以下代码，删除字符串中的标点符号： def removePunctuation(text: String): String = { val punctPattern = "[^a-zA-Z0-9\\s]".r punctPattern.replaceAllIn(text, "").toLowerCase } 然后我读取一个文本文件并尝试删除标点符号： val myfile = sc.textFile("/home/ubuntu/da

浏览 1提问于2017-04-24得票数 7

回答已采纳

1回答

Apache火花:从检查点恢复状态的NPE

、、、

我们正在构建简单的流应用程序，它使用HBase RDD与传入的DStream连接。样本代码： val indexState = sc.newAPIHadoopRDD( conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]).map { case (rowkey, v) => //some logic} val result = dStream.transform { rdd => rdd.leftOuterJoin(indexState) } 它可

浏览 1提问于2017-02-16得票数 1

回答已采纳

2回答

为什么从UDF中加入DataFrame会导致NullPointerException？

、

我在执行星火应用程序时遇到了问题。源代码： // Read table From HDFS val productInformation = spark.table("temp.temp_table1") val dict = spark.table("temp.temp_table2") // Custom UDF val countPositiveSimilarity = udf[Long, Seq[String], Seq[String]]((a, b) => dict.filter( (($"first"

浏览 3提问于2017-11-04得票数 10

回答已采纳

1回答

Dataset中的RDD会导致Spark2.x序列化错误

、、、、

我有一个使用Databricks笔记本从数据集创建的RDD。当我试图从它获得具体的值时，它只是在序列化错误消息中失败。这里是我获取数据的地方(PageCount是一个Case类)： val pcDf = spark.sql("SELECT * FROM pagecounts20160801") val pcDs = pcDf.as[PageCount] val pcRdd = pcDs.rdd 当我这么做时： pcRdd.take(10) 我得到以下例外： org.apache.spark.SparkException: Job aborted due to stage f

浏览 1提问于2016-10-29得票数 4

1回答

在快活的工作中随机获得java.lang.ClassCastException

、

用Scala编写的快速作业异常中止: java.lang.ClassCastException: com.$Class1不能强制转换为com.$Class1。 Class1是存储在RDD中的自定义类。有趣的是，这个错误是在强制转换同一个类时抛出的。到目前为止，还没有发现任何模式。在工作中，我们从hbase获取数据，使用Dataframe使用分析元数据丰富数据，并将其推送到SnappyData中的表中。我们使用的是Snappydata 1.2.0.1。不确定为什么会发生这种情况。下面是堆栈跟踪:由于阶段故障而中止的作业:阶段42.0中的任务76失败了4次，最近一次失败:阶段42.0中丢失

浏览 14提问于2019-01-18得票数 0

回答已采纳

2回答

无法解析不可序列化的任务[org.apache.spark.SparkException: task not serializable] Spark Scala RDD

、、、

当我尝试创建一个类的对象并调用特定的方法newRDD和blah时，我总是得到以下错误堆栈跟踪 I create a spark shell by importing the jar and run the following in spark-shell spark-shell --master=yarn --jars=sample_jar.jar --files database.cfg scala> val reader = new Sample(spark) scala> val a = reader.buildFileRDD("/xyz/path")

浏览 13提问于2020-06-04得票数 0

回答已采纳

2回答

运行apache spark作业时任务不可序列化异常

、

下面的java程序是用apache spark编写的。该程序尝试从相应的文件中读取肯定和否定词的列表，将其与主文件进行比较，并相应地过滤结果。 import java.io.Serializable; import java.io.FileNotFoundException; import java.io.File; import java.util.*; import java.util.Iterator; import java.util.List; import java.util.List; import org.apache.spark.api.java.*; import org

浏览 0提问于2014-09-18得票数 20

回答已采纳

2回答

无法在SparkContext中序列化foreachRDD

、、、、

我正在试图保存卡桑德拉卡夫卡的流媒体数据。我能够读取和解析数据，但是当我调用下面的行来保存数据时，我将得到一个Task not Serializable异常。我的课程正在扩展可串行化，但不知道为什么我会看到这个错误，在谷歌搜索了3个小时之后，没有得到多少帮助，有人能给出任何指示吗？ val collection = sc.parallelize(Seq((obj.id, obj.data))) collection.saveToCassandra("testKS", "testTable ", SomeColumns("id", "dat

浏览 5提问于2016-08-06得票数 2

回答已采纳

1回答

Apache Spark:为什么不能使用在全局对象中定义的广播变量

、

这里有一个简单的例子来表达我的担忧。此示例包含3个文件和3个对象，具体取决于spark 1.6.1。 //file globalObject.scala import org.apache.spark.broadcast.Broadcast object globalObject { var br_value: Broadcast[Map[Int, Double]] = null } //file someFunc.scala import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD o

浏览 39提问于2016-08-13得票数 2

1回答

星星之火中的case类实现

、、

我试图在intellij idea中实现case类，我得到了以下错误。你能帮我解决这个问题吗？代码： val conf = new SparkConf().setMaster("local").setAppName("case class") val sc = new SparkContext(conf) case class Employee (empno: String, ename: String, job: String, mgr: String, hiredate: String, sal: String, comm: St

浏览 2提问于2019-12-17得票数 1

2回答

Spark读取本地文本文件在线程"main“org.apache.spark.SparkException中引发异常:任务不可序列化

、

我正在用java编写我的第一个spark程序，但我不能解决下面的错误。我已经检查了很多关于堆栈溢出的问题，但它们看起来与我的问题无关。我正在尝试使用最新版本的spark 2.4.4。我正在本地运行我的应用程序这是我的程序 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; public class SparkTextFile { public static void main(

浏览 20提问于2019-12-27得票数 1

回答已采纳

1回答

代码在Spark-Shell中工作，而不在eclipse中

、、

我有一个小的Scala代码，它可以在Spark-Shell上正常工作，但不能在带有Scala插件的Eclipse中工作。我可以使用插件访问hdfs试着写另一个文件，它工作了.. FirstSpark.scala package bigdata.spark import org.apache.spark.SparkConf import java. io. _ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ object FirstSpark { def main(args: Arra

浏览 8提问于2016-07-20得票数 0

回答已采纳

2回答

Scala:如何从RDD中获取PortableDataStream实例的内容

、、

由于我想从binaryFiles中提取数据，所以我使用val dataRDD = sc.binaryRecord("Path")读取文件，得到的结果是org.apache.spark.rdd.RDD[(String, org.apache.spark.input.PortableDataStream)] 我想要提取我的文件的内容，它是以PortableDataStream的形式为此，我尝试了：val data = dataRDD.map(x => x._2.open()).collect()，但是我得到了以下错误： java.io.NotSerializableExc

浏览 0提问于2019-03-27得票数 0

回答已采纳

1回答

使用SparkML预测模型时的任务序列化问题

、、、

在运行此代码时，我会得到任务序列化错误，其中myDstream是DStream[String]，session是String val model = GradientBoostedTreesModel.load(sc,mySet.value("modelAddress") + mySet.value("modelId")) val newDstream = myDstream.map(session => { val features : Array[String] = UtilsPredictor.getFeatu

浏览 0提问于2017-03-23得票数 1

回答已采纳

2回答

org.apache.spark.SparkException:不可序列化的错误任务

、、、

..。 val cols: Seq[String] = Seq("item", "SR", "RP") val vecToSeq = udf((v:org.apache.spark.ml.linalg.Vector) => v.toArray) val exprs = cols.zipWithIndex.map{ case(c,i) => $"_tmp".getItem(i).alias(c)} val DoubleDF = result5.select(vecToSeq($"vectorCol").

浏览 0提问于2017-02-28得票数 0

1回答

在转换中使用函数会导致不可序列化的异常吗？

、、、、

我有一个Breeze DenseMatrix，我找到每行的mean和每行正方形的mean，然后把它们放在另一个DenseMatrix中，每列一个。但是我得到了Task Not Serializable异常。我知道sc不是Serializable，但我认为例外是因为我在安全区域的转换中调用函数。我说的对吗？如果没有任何函数，怎么可能做到这一点呢？任何帮助都是最好的！代码： object MotitorDetection { case class MonDetect() extends Serializable { var sc: SparkContext = _ var machines:

浏览 0提问于2018-06-30得票数 0

1回答

从火花连接到SAPHANA

、、、

我试图通过JAVA代码在SAP上使用spark来执行查询。在调用数据框架对象的任何操作时，当调用java.io.NotSerializableException.In时，将抛出NotSerializableException。 public class SaphanaTest implements Serializable { private static final long serialVersionUID = 1L; public void call() { SparkConf sparkconf = new SparkConf().set("

浏览 0提问于2016-03-29得票数 2

1回答

如何解决非序列化异常？

、

当我使用以下代码时，它运行得很好： val result = rdd.filter(row => row.get[DateTime]("eventtime") > Offset._1 && row.get[DateTime]("eventtime") <= Offset._2) 然而，在代码泛化的情况下，我遇到了一个"task not serialize“异常。代码： def resultFilter(offsetValue: (Imports.DateTime, Imports.DateTime)) = (

浏览 3提问于2015-09-25得票数 0

1回答

简单spark应用程序中的错误

我正在运行一个简单的spark应用程序，它完成了“word to vector”。这是我的代码(来自spark网站) import org.apache.spark._ import org.apache.spark.rdd._ import org.apache.spark.SparkContext._ import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel} object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf()

浏览 0提问于2015-07-24得票数 1

1回答

如何在星火中使用Scala生成键值格式

、、

我正在VirtualBox上学习星火。我使用./bin/来打开火花并使用Scala。现在，我对使用Scala的键值格式感到困惑。我在家里有一个txt文件，它看起来像： panda 0 pink 3 pirate 3 panda 1 pink 4 我使用sc.textFile来获取这个txt文件。如果我做了 val rdd = sc.textFile("/home/feng/spark/data/rdd4.7") 然后我可以使用rdd.collect()在屏幕上显示rdd： scala> rdd.collect() res26: Array[String] = Array

浏览 2提问于2016-04-04得票数 0

5回答

spark java.util.logging.Logger

、

我正在使用Spark来运行一个使用java.util.logging.Logger的现有Java包，并且我得到了一个错误： org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304) at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(Clos

浏览 10提问于2016-08-12得票数 0

2回答

ClassCastException:使用saveToCassandra时无法分配scala.collection.immutable.List$SerializationProxy实例

、、、、

我正在使用sqlContext的cassandraTable()函数从cassandra读取数据。它将创建一个DataFrame。我将这个Df转换为Rdd，并将其映射到case类对象。dataClass是一个数据帧。我已经检查了发布的类似问题，但都没有帮助。 val dataClass = cartData.rdd.map({case Row(session_id : String, time_stamp : Date, data : String) => cartDataClass(session_id, time_stamp, data)}) 上面的匿名函数在map函数中产生了问题。

浏览 0提问于2017-04-17得票数 1

1回答

Apache火花-简单的单词计数获取: SparkException:任务不可序列化

、、

我试图在Apache (v1.3.0)上做一些测试，我有一个简单的Java 8类： public class WordCount { private JavaSparkContext ctx; private String inputFile, outputFile; public WordCount(String inputFile, String outputFile) { this.inputFile = inputFile; this.outputFile = outputFile; // Initialize S

浏览 6提问于2015-03-27得票数 0

回答已采纳

1回答

Spark streaming嵌套执行序列化问题

、、、

我正在尝试连接spark streaming应用程序中的DB2数据库和数据库查询执行语句，这会导致"org.apache.spark.SparkException:任务不可序列化“问题。请给我建议。下面是我的示例代码以供参考。 dataLines.foreachRDD{rdd=> val spark = SparkSessionSingleton.getInstance(rdd.sparkContext.getConf) val dataRows=rdd.map(rs => rs.value).map(row =&g

浏览 1提问于2018-03-29得票数 0

1回答

为什么火花会因FetchFailed错误而失败？

、、、

我在Apache上使用，它有4个节点，总共210 GB。我的星火作业是在一个小的事务数据集和一个大型事件数据集之间进行关联。我想根据时间和ID (事件时间和事务时间、ID和ID)将每个事务与最近的事件匹配。我得到以下错误： FetchFailed(null, shuffleId=1, mapId=-1, reduceId=20, message=org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 1 at org.apache.spark.Ma

浏览 2提问于2016-03-10得票数 2

2回答

火花卡夫卡制片系列化

、、

我想出一个例外： ERROR yarn.ApplicationMaster: User类抛出异常: org.apache.spark.SparkException:任务不可串行化org.apache.spark.SparkException:任务不可序列化在org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:294) at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.

浏览 4提问于2016-11-09得票数 6

回答已采纳

1回答

关于aggegateByKey的任务不可序列化

、

环境: spark 1.60。我使用scala。我可以用sbt编译程序，但是当我提交程序时，它遇到了错误。我的完整错误如下： 238 17/01/21 18:32:24 INFO net.NetworkTopology: Adding a new node: /YH11070029/10.39.0.213:50010 17/01/21 18:32:24 INFO storage.BlockManagerMasterEndpoint: Registering block manager 10.39.0.44:41961 with 2.7 GB RAM, BlockManagerId(349,

浏览 0提问于2017-01-21得票数 0

2回答

尝试写入泛型记录类型的rdd时出现任务不可序列化异常

、、、

val file = File.createTempFile("temp", ".avro") val schema = new Schema.Parser().parse(st) val datumWriter = new GenericDatumWriter[GenericData.Record](schema) val dataFileWriter = new DataFileWriter[GenericData.Record](datumWriter) dataFileWriter.create(schema , file) rdd.foreach(r

浏览 0提问于2017-06-13得票数 1

2回答

Spring Spark集成- org.springframework.context.annotation.AnnotationConfigApplicationContext :java.io.NotSerializableException

、、

我正在为我的spark应用程序使用spring boot，所有的依赖项都是通过spring来管理的，我正在使用Autowire来添加依赖项。提交给executors的My Function类和Custom类实现了Serializable。但当我运行它并将任务提交给执行器时，它抛出了异常:一个spring类不是serilazable - AnnotationConfigApplicationContext Caused by: java.io.NotSerializableException: org.springframework.context.annotation.AnnotationC

浏览 9提问于2018-08-12得票数 0

1回答

spark中的KernelDensity序列化错误

、、

最近我在Spark中使用了KernelDensity类，我试着在windows10中将它序列化到我的磁盘上，下面是我的代码： // read sample from disk val sample = spark.read.option("inferSchema", "true").csv("D:\\sample") val trainX = sample.select("_c1").rdd.map(r => r.getDouble(0)) val kd = new KernelDensity().setSample(tr

浏览 1提问于2020-05-10得票数 0

1回答

调用JavaPairRDD.max时Spark中不可序列化的异常

、、

在ItelliJ上运行此代码时，我得到了一些异常，例如:线程"main“中的异常:任务不可序列化的代码片段: ` public class MostPopularSuperHero { public static void main(String args[]) { SparkConf conf = new SparkConf().setAppName("MostPopularSuperHero").setMaster("local[*]"); JavaSparkContext sc = new JavaSparkContext(con

浏览 2提问于2016-02-14得票数 1

回答已采纳

2回答

Apache Spark作业失败，返回FileNotFoundExceptoin

、、

我有一个由5个节点组成的spark集群，我有一个用Java语言编写的spark作业，它从一个目录中读取一组文件并将内容发送到Kafka。当我在本地测试这项工作时，一切都运行良好。当我尝试将作业提交到群集时，作业失败并显示FileNoTFoundException 需要处理的文件存在于所有5个节点上挂载的目录中，因此我确信文件路径会出现在exception exists中。以下是提交作业时出现的异常 java.io.FileNotFoundException: File file:/home/me/shared/input_1.txt does not exist at org.a

浏览 1提问于2016-11-01得票数 2

1回答

NullPointerException toPandas() Pyspark？

、

我正在尝试使用pyspark从teradata加载数据，并将其导入到pandas数据帧中。我不确定在这里是否有区别，但是这个表大约有50m行，但是这个过程给了我一个错误，即使是使用SELECT TOP 10 *。在运行toPandas之前，spark_df.count()返回10。任何有关阅读错误消息的帮助都将不胜感激。或者，如果我在使用pyspark时偏离了轨道，那也是很好的。 import pandas as pd import numpy as np import datetime import time from pyspark.sql.types import * import

浏览 13提问于2019-04-10得票数 0

1回答

火花函数不可串行化

、

我有一堂课： class DataLoader { def rdd2RddTransform( ss: SparkSession, inputRDD: RDD[GenericRecord]): RDD[GenericRecord] = { inputRDD.asInstanceOf[RDD[TrainingData]] .map(reformatTrainingData) } private def reformatTrainingData: TrainingData => ReFormatedData

浏览 0提问于2019-02-01得票数 4

回答已采纳

1回答

火花与卡桑德拉并行处理

、

我还有一项任务要做。用户在执行submit命令时提供一组配置文件的IP地址。假设该数组如下所示： val ips = Array(1,2,3,4,5) 数组中最多可以有100.000个值。对于数组中的所有元素，我应该读取Cassandra的数据，执行一些计算并将数据插入Cassandra。如果我这样做了： ips.foreach(ip =>{ - read data from Casandra for specific "ip" // for each IP there is different amount of data to read (within the

浏览 4提问于2016-04-21得票数 0

1回答

使用函数迭代数据帧时出错

、、、、

编辑的我正试图通过数据遍历来创建另一个数据。在这个例子中，我没有使用第一个例子中的数据，它只是为了显示我试图做的事情。然而，我们的想法是使用第一种方法根据第一种数据生成一个大得多的新的。无论我在void函数中尝试什么，我都会在foreach中得到错误。要迭代的示例数据文件： Dataset<Row> obtencionRents = spark.createDataFrame(Arrays.asList( new testRentabilidades("0000A0","PORTAL","4-ANUAL",

浏览 4提问于2021-11-03得票数 0

2回答

org.apache.spark.SparkException:不可序列化的任务-传递RDD

、

我上了三节课未序列化的任务错误。完整的堆栈跟踪见下文。第一类是序列化的人： public class Person implements Serializable { private String name; private int age; public String getName() { return name; } public void setAge(int age) { this.age = age; } } 这个类从文

浏览 3提问于2015-11-06得票数 1