Scala嵌套映射到Spark RDD_使用Scala将RDD映射到Spark中的case(Schema)_Spark 2.0 Scala - RDD.toDF() - 腾讯云开发者社区

serialization、apache-spark、jmstemplate

我正在尝试在JMSTemplate方法中使用Spring rdd.foreach类，但是我得到的是任务而不是可序列化的错误。当我尝试使用静态变量时，它在本地运行，但在集群中，我得到的是空指针异常。示例代码： inputRDD.foreach(record -> { messageServices.send(record); } 错误日志： org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.

浏览 3提问于2015-12-29得票数 0

回答已采纳

2回答

火花放电中RDD到DF的不完全转换

python、apache-spark、pyspark

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

向量-无法显示随机森林模型的预测(无法执行用户定义的函数($anonfun$1：( PySpark ) => vector))

pyspark、user-defined-functions、apache-spark-mllib

我使用的是PySpark (Python3.5.2和Spark2.2.0.2.6.4.0-91)，我有一个预测值的数据帧(通过用MLlib库定义的随机森林模型)，结构如下： DataFrame[id: bigint, features: vector, rawPrediction: vector, probability: vector, prediction: double] 我是这样得到的： rf_predictions = random_forest_model.transform(dataframe) 但是当我想要显示它的内容时，它只适用于前两列"id“和”feature“：

浏览 34提问于2019-09-21得票数 0

1回答

spark.lapply和访问SparkDataFrame [SparkR]

r、apache-spark、sparkr

我在访问SparkDataFrame时遇到了spark.lapply函数的问题。守则如下： df <- data.frame(x = c(1,2), y = c("a", "b")) Sys.setenv(SPARK_HOME = "path/spark-2.0.0-bin-hadoop2.7/") library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"))) sparkR.session(mas

浏览 0提问于2017-04-28得票数 2

回答已采纳

1回答

java.lang.IllegalArgumentException:未能解析查询：{“查询”：

scala、apache-spark、elasticsearch

我试图在Spark2.2和Scala2.11.8中执行Elasticsearch查询。Elasticsearch的版本为2.4.4，而我使用的Kibana版本为4.6.4。这是我在星火中使用的图书馆： <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>5.2.2</version> </dependency&

浏览 0提问于2018-01-22得票数 0

回答已采纳

1回答

我的Spark Streaming应用中的java.lang.NullPointerException

scala、apache-spark、spark-streaming、apache-spark-sql

我的spark应用程序需要处理数据流。为此，我使用了两个sparks模块:流模块和sql模块。特别是，我需要使用sql模块，因为对于从流接收到的每个记录，我必须查询本地元存储中的配置单元表。主要问题如下:在流处理开始之后(通过流上下文的方法start )，我不能使用sqlContext。当我试图在流处理过程中使用sqlContext时，引发以下错误： 15/06/22 12:41:15 ERROR Executor: Exception in task 0.0 in stage 2.0 (TID 2) java.lang.NullPointerException at org.apa

浏览 2提问于2015-06-22得票数 1

1回答

pyspark:重新分区后出现“值太多”错误

python、apache-spark、apache-spark-sql、pyspark、rdd

我有一个DataFrame (转换为RDD)，并希望重新分区，以便每个键(第一列)都有自己的分区。这是我所做的： # Repartition to # key partitions and map each row to a partition given their key rank my_rdd = df.rdd.partitionBy(len(keys), lambda row: int(row[0])) 但是，当我试图将它映射回DataFrame或保存它时，我得到了这个错误： Caused by: org.apache.spark.api.python.PythonException:

浏览 0提问于2015-11-21得票数 5

1回答

使用循环将条目附加到RDD

apache-spark、rdd

我尝试在循环的每个迭代中将一个条目附加到现有的RDD。到目前为止，我的代码是： var newY = sc.emptyRDD[MatrixEntry] for (j <- 0 until 8000) { var arrTmp = Array(MatrixEntry(j, j, 1)) var rddTmp = sc.parallelize(arrTmp) newY = newY.union(rddTmp) } 在进行这8000次迭代时，当我尝试从该RDD中获取(10)时，我得到了一个错误，但如果我尝试使用较小的数字，一切都是正常的。error Exception in thr

浏览 3提问于2018-01-29得票数 0

1回答

spark java.io.NotSerializableException: org.apache.spark.SparkContext

scala、apache-spark、spark-streaming

我正在尝试实现检查存在的记录接收到的消息从卡夫卡在火花中火花流，现在当我运行RunReadLogByKafka对象，有一个SparkContext的NotSerializableException被抛出，我谷歌它，但我仍然不知道如何修复它，谁能建议我如何重写它？提前谢谢。 package com.test.spark.hbase import java.sql.{DriverManager, PreparedStatement, Connection} import java.text.SimpleDateFormat import com.powercn.spark.LogRow impo

浏览 0提问于2016-02-25得票数 1

1回答

在apache上运行带有本地性质的Spark查询时数据局部性问题

apache-spark、hadoop、pyspark、apache-spark-sql、hadoop2

我有一个Hadoop集群，它使用Apache来查询保存在Hadoop上的parquet文件。例如，当我使用下面的PySpark代码在拼花文件中找到一个词时： df = spark.read.parquet("hdfs://test/parquets/*") df.filter(df['word'] == "jhon").show() 在运行这段代码之后，我将转到stages应用程序UI，stages选项卡。与此形成对比的是，由于该查询的性质，它必须在本地运行，至少在Any.本地级上运行。当我在运行时检查集群的网络IO时，我发现这个查询使用网络(当

浏览 8提问于2021-03-13得票数 1

回答已采纳

1回答

Spark 2.0.2嵌套K-在rdds /嵌套rdd或数据帧或数据集中

scala、apache-spark、apache-spark-mllib

我正在尝试并行运行大量的k-means。我有一个房间和它的大量数据，我想计算每个房间的集群。所以我有 roomsSignals[(room:String, signals:List[org.apache.spark.mllib.linalg.Vector]] roomsSignals.map{l=> val data=sc.parallelize(l.signals) val clusterCenters=2 val model = KMeans.train(data, clusterCenters, 5) model.clusterCenters.map { r =>

浏览 0提问于2016-12-13得票数 1

1回答

如何测试某个值是否是RDD的键

scala、apache-spark

我对Spark和Scala非常陌生，我想测试一个值是否是RDD中的一个键。我掌握的数据如下： RDD数据:键->值 RDD :关键的->统计数据我想要做的是过滤数据中的所有键值对，其中的键位于stat中。我的总体想法是将RDD的键转换为一个集合，然后测试一个值是否属于这个集合？是否有更好的方法，以及如何使用Scala将RDD的键转换为一组？谢谢。

浏览 1提问于2015-01-12得票数 1

回答已采纳

1回答

原因: org.apache.kafka.clients.producer.KafkaProducer :java.io.NotSerializableException

java、apache-kafka、kafka-producer-api

我试着用kafka生产者发送java字符串消息。字符串消息是从Java中提取的。 JavaPairDStream<String, String> processedJavaPairStream = inputStream.mapToPair (record-> new Tuple2<>(record.key(), record.value())).mapValues(message -> message.replace('>', '#')); String outTopics = &#

浏览 9提问于2019-09-18得票数 0

回答已采纳

1回答

使用hive/sql和spark读取json键值

hadoop、hive、apache-spark、apache-spark-sql

我试图将这个json文件读入一个单元表中，顶层键，即1,2..，这里是不一致的。 { "1":"{\"time\":1421169633384,\"reading1\":130.875969,\"reading2\":227.138275}", "2":"{\"time\":1421169646476,\"reading1\":131.240628,\"reading2\":226.810211}", "

浏览 1提问于2015-01-13得票数 5

1回答

数据过滤给NullPointerException

scala、apache-spark、dataframe、nullpointerexception、apache-spark-sql

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如： Description bartender bartender employee taxi-driver ... 我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[String]).repartition(4) 然后，对于每个职务描述，我尝试检索具有该职务的人员并做一些事情，但我得到了一个NullPointerException： jobs.foreach

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

如何将映射转换为列

scala、apache-spark、spark-dataframe、apache-zeppelin

我用的是笔记本。所以火花基本上是在互动模式下运行的。这里我不能使用闭包变量，因为齐柏林飞艇抛出了org.apache.spark.SparkException: Task not serializable，因为它试图序列化整个段落(更大的闭包)。因此，如果没有闭包方法，我只能将map作为列传递给UDF。我收集了一张从已销毁的RDD中收集的地图： final val idxMap = idxMapRdd.collectAsMap 它正被用于星火变换中： def labelStr(predictions: WrappedArray[Double], idxMap: Map[Double, St

浏览 3提问于2016-11-14得票数 0

2回答

无法在Scala中并行化列表

scala、rabbitmq、spark-streaming、avro

我无法在scala中并行化一个列表，获取java.lang.NullPointerException messages.foreachRDD( rdd => { for(avroLine <- rdd){ val record = Injection.injection.invert(avroLine.getBytes).get val field1Value = record.get("username") val jsonStrings=Seq(record.toString())

浏览 4提问于2017-07-13得票数 0

2回答

我如何才能在PySpark中得到一个不同的数据集？

python、apache-spark、pyspark、rdd

我有一个字典的RDD，我想得到一个只包含不同元素的RDD。但是，当我试图打电话给 rdd.distinct() PySpark给出了以下错误 TypeError: unhashable type: 'dict' at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166) at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:207) at org.ap

浏览 5提问于2016-02-19得票数 2

回答已采纳

2回答

NullPointerException在Scala Spark中，似乎是由集合类型引起的？

scala、apache-spark

sessionIdList的类型为： scala> sessionIdList res19: org.apache.spark.rdd.RDD[String] = MappedRDD[17] at distinct at <console>:30 当我尝试运行下面的代码时： val x = sc.parallelize(List(1,2,3)) val cartesianComp = x.cartesian(x).map(x => (x)) val kDistanceNeighbourhood = sessionIdList.map(s => { ca

浏览 0提问于2014-05-22得票数 14

回答已采纳

1回答

RDD遍历中的Spark & Scala - NullPointerException

scala、apache-spark、rdd

我有许多CSV文件，需要通过文件名的一部分将它们合并到RDD中。例如，对于以下文件 $ ls 20140101_1.csv 20140101_3.csv 20140201_2.csv 20140301_1.csv 20140301_3.csv 20140101_2.csv 20140201_1.csv 20140201_3.csv 我需要将名为20140101*.csv的文件组合到一个RDD中来处理，等等。我使用sc.wholeTextFiles读取整个目录，然后根据文件名的模式对文件名进行分组，以形成一个文件名字符串。然后，我将字符串传递给sc.textFile，将文

浏览 3提问于2015-07-21得票数 0

回答已采纳

1回答

如何从RDD中提取字段

scala、apache-spark、rdd

我不是很擅长RDD，请帮我从RDD中提取2个字段，并创建一个新的更简单的RDD，然后我可以操纵/转换等。下面是1个RDD记录示例。(这是使用scala spark) RF_RDD: org.apache.spark.rdd.RDD[(String, String)] = ScalaEsRDD[32] at RDD at AbstractEsRDD.scala:37 (AXObQ5JaIXI8icz9PfkJ,{"Indicator":{"Type":{"@type":"Vocabs:IndicatorTypeVocab-1.1"

浏览 45提问于2020-08-26得票数 0

1回答

执行器失败(执行者ID: 1)：可能是由于容器超过阈值或网络问题。检查驱动程序日志以获取警告消息

python、java、apache-spark、pyspark、aws-glue

我用AWS胶运行火花作业。我的流量多少有点像：客户端定义了规则(数百条规则)，客户端选择要运行的规则，并提供输入数据、作业、获取数据并执行该数据上的每条规则。规则被定义为python文件，系统通过运行： for rule in rules: result = importlib.import_module(module).handle(glue_context, dataframe, global_params, rule_params) 这是很好的工作，当我运行的批10-15。当我在更大的批次(25-50)执行它们时，我会得到错误。数据集不是很大- 70k行，200列。对于此

浏览 26提问于2022-10-10得票数 2

1回答

将RDD转换为DataFrame scala - NoSuchMethodError

scala、apache-spark

我正在尝试将scala中的RDD转换为DataFrame，如下所示 val posts = spark.textFile("~/allPosts/part-02064.xml.gz") import org.apache.spark.SparkContext._ import org.apache.spark._ import org.apache.spark.rdd._ import org.apache.spark.SparkContext._ val sqlContext = new org.apache.spark.sql.SQLContext(spark) imp

浏览 10提问于2016-07-23得票数 1

回答已采纳

1回答

星火作业失败，但有org.apache.spark.shuffle.FetchFailedException异常

scala、apache-spark、parquet

我正在运行一个具有以下属性的星火作业： "spark.driver.disk": "10g", "spark.driver.maxResultSize": "40g", "spark.driver.memory": "50g", "spark.driver.memoryOverhead": "85g", "spark.executor.cores": "5", "spark.executor.disk&

浏览 19提问于2022-05-11得票数 0

1回答

如何从拼花文件中读取和写入自定义类

java、apache-spark、apache-spark-sql、spark-dataframe、parquet

我试图使用DataFrame/datasets为某个类类型编写一个parquet读/写类类模式： class A { long count; List<B> listOfValues; } class B { String id; long count; } 代码： String path = "some path"; List<A> entries = somerandomAentries(); JavaRDD<A> rdd = sc.parallelize(entries, 1); DataFrame d

浏览 3提问于2016-10-14得票数 1

回答已采纳

1回答

Java.lang.IllegalArgumentException:要求失败:在Double中未找到列

scala、csv、cassandra、rdd、spark-cassandra-connector

我在spark工作，我有很多包含行的csv文件，一行看起来像这样： 2017,16,16,51,1,1,4,-79.6,-101.90,-98.900 它可以包含更多或更少的字段，具体取决于csv文件每个文件对应一个cassandra表，我需要在其中插入文件包含的所有行，所以基本上我要做的就是获取行，拆分其元素并将其放入ListDouble中 sc.stop import com.datastax.spark.connector._, org.apache.spark.SparkContext, org.apache.spark.SparkContext._, org.apache.spar

浏览 6提问于2018-01-29得票数 1

1回答

查看PySpark脚本的胶合作业输出的最佳方法

python、amazon-web-services、pyspark、aws-glue

所以我创建了一个调用Python脚本并执行PySpark转换的作业。然而，当我从AWS Cloudwatch查看Output时，输出中有许多对我来说并不重要的信息。例如： at org.apache.spark.rdd.NewHadoopRDD$$anon$1.liftedTree1$1(NewHadoopRDD.scala:199) at org.apache.spark.rdd.NewHadoopRDD$$anon$1.<init>(NewHadoopRDD.scala:196) at org.apache.spark.rdd.NewHadoopRDD.compute(New

浏览 22提问于2020-09-23得票数 0

回答已采纳

1回答

用greenplum-connector-apache-spark-scala_2.12-2.1.0 - java.lang.IllegalStateException将星火写入绿梅数据库

java、apache-spark、pyspark、apache-spark-sql、greenplum

用greenplum-connector-apache-spark-scala_2.12-2.1.0 - java.lang.IllegalStateException将星火写入绿梅数据库格林梅版本: PostgreSQL 9.4.24 (格林梅数据库6.8.1构建提交:xxxxxxx)在x86_64-未知-linux-gnu上，由gcc (Ubuntu7.5.0-3 ubuntu1~18.04) 7.5.0，64位编译于2020年6月16日18:53:13 连接器: greenplum-connector-apache-spark-scala_2.12-2.1.0.jar 火花版本:欢迎使

浏览 9提问于2022-01-14得票数 1

1回答

spark- rdd.saveAsTextFile时的java.lang.NoSuchMethodError

scala、hadoop、apache-spark

parallelize整数并尝试另存为文本文件，如下所示： scala> val test = sc.parallelize(List(12,2,3,4)) test: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24 另存为文本文件 scala> test.saveAsTextFile("/test") 错误堆栈跟踪如下： java.lang.NoSuchMethodError: org.apache.hadoop.mapre

浏览 1提问于2017-09-11得票数 1

3回答

使用Spark 1.4 API读取ORC文件时的NPE

apache-spark、hive、apache-spark-sql、orc

我在Spark中读取了许多ORC文件，并对其进行了处理，这些文件基本上都是Hive分区。大多数情况下，处理过程都很顺利，但对于少数文件，我得到了以下异常，不知道为什么？这些文件在使用配置单元查询的配置单元中工作得很好。 DataFrame df = hiveContext.read().format("orc").load("/path/in/hdfs"); java.lang.NullPointerException at org.apache.spark.sql.hive.HiveInspectors$class.unwrapperFor(Hive

浏览 1提问于2015-09-08得票数 1

1回答

错误:调用fit()函数时，“Python未能连接”

apache-spark、pyspark

我正在尝试为文本分类训练一个ANN： mlp = MultilayerPerceptronClassifier(maxIter=10, layers=[5,3], blockSize=128, seed=123) model_stacking = mlp.fit(input_vector.select(['features', 'label'])) preditions_foo = model_stacking.transform(validation) predition = evaluator.evaluate(preditions_foo) 当应用fit(

浏览 2提问于2019-06-27得票数 1

2回答

测量pySpark中两列之间的均方误差

python、apache-spark、pyspark、apache-spark-sql、apache-spark-ml

我是pySpark的新手，在处理数据方面有一些问题。我有一个dataFrame，它有两个列，在pySpark中没有头(2.1.0)。我想计算第一列和第二列之间的最小均方误差(RegressionMetrics.MeanSquaredError)： df = sc.textFile("data.csv").map(lambda l: l.split(",")) df1 = df.map(lambda x: map(eval, x)) df2 = df1.map(lambda row: LabeledPoint(row[0], row[1])) baseline_

浏览 0提问于2018-07-08得票数 0

回答已采纳

1回答

Spark流不会持久化信息

hadoop、apache-spark、bigdata、real-time、spark-streaming

我已经创建了一个类似于wordcount的Spark流脚本。优点是，我希望将所有信息存储在一个集合(addedRDD)中，但过了一段时间后，由于块消失了，一个异常被启动。有没有办法将这个累积的RDD保存在内存中？ import org.apache.spark._ import org.apache.spark.streaming._ import scala.collection.mutable import org.apache.spark.rdd.RDD val ssc = new StreamingContext(sc, Seconds(5)) val lines = ssc.soc

浏览 2提问于2017-10-26得票数 0

1回答

Apache Spark Java设置内存大小

java、apache-spark、intellij-idea、apache-spark-sql

我已经在网上寻找了很长一段时间的解决方案，但一无所获。我正在尝试在客户端节点中运行Spark Job (通过Intellj构建和运行)。由于某些原因，我无法在Spark会话中设置目录内存(似乎在客户端模式下，内存是在JVM启动之前分配的)。我的虚拟机有20G的RAM，但当内存达到5G时，Spark作业就被终止了，这大致是分配给驱动程序的默认内存大小。有一些解决方案建议通过spark-submit运行作业。但是出于Java版本相似性的原因，我不能这样做。也有关于尝试修改spark\conf\spark-defaults.conf下的配置文件的建议，但它对我也不起作用。有没有人有同样的情况，并能够

浏览 28提问于2020-05-09得票数 0

2回答

Spark SQL连接多个失败

scala、apache-spark、left-join

我有大约18个DataSet，每个包含10个不同的列和1k~10k行，我必须一个接一个地对它们进行左连接。当我这样做的时候： b = a.join(A, 'one column', 'outer_left').dictinct() c = b.join(B, 'one column', 'outer_left').dictinct() d = c.join(C, 'one column', 'outer_left').dictinct() ... n = m.join(M, 'one

浏览 3提问于2018-02-27得票数 1

1回答

当接收器失败并将WAL存储在s3中时，火花流无法读取预写日志记录中的数据

spark-streaming、wal

这是错误日志- FileBasedWriteAheadLogSegment(s3n://*****/checkpoint/receivedData/20/log-1439298698600-1439298758600,13678,5069)：无法读取预先写入日志记录中的数据，org.apache.spark.streaming.rdd.WriteAheadLogBackedBlockRDD.org$apache$spark$streaming$rdd$WriteAheadLogBackedBlockRDD$$getBlockFromWriteAheadLog$1(WriteAheadLogB

浏览 2提问于2015-08-12得票数 1

1回答

Apache火花错误，未找到克隆Python环境

azure、apache-spark、databricks、azure-databricks

我正在尝试将拥抱脸升级到我们目前的版本2.11。当我通过pip安装transformers=={任意版本}在azure笔记本中安装任何较新版本的转换器时，我在执行过程中会收到以下错误。我对此非常陌生，但是任何关于故障排除方法的反馈都将不胜感激。谢谢。 org.apache.spark.SparkException: Cloned Python environment not found at /local_disk0/.ephemeral_nfs/envs/pythonEnv-89bc8046-d7ae-4968-b280-fc233a9bf3e4 at org.apache.spark.ap

浏览 7提问于2021-08-23得票数 0

回答已采纳

1回答

火花执行器由于GC开销限制而丢失，即使使用20个执行器每个使用25 GC。

apache-spark、apache-spark-sql

这个GC开销限制错误让我发疯了。我有20个执行者使用25 GB，我完全不明白它怎么能抛出GC开销，我也不是那个大数据集。一旦这个GC错误发生在执行器中，它就会丢失，其他执行程序也会慢慢丢失，因为IOException、Rpc客户端断开、洗牌找不到等等。我是星火的新手。 WARN scheduler.TaskSetManager: Lost task 7.0 in stage 363.0 (TID 3373, myhost.com): java.lang.OutOfMemoryError: GC overhead limit exceeded at org.apache

浏览 0提问于2015-08-18得票数 1

回答已采纳

1回答

在火花流中遇到内存问题的泡菜对象(模型数据)

apache-spark、scikit-learn、spark-streaming

一直在尝试应用一个泡沫化模型来预测流数据。最初，该模型几乎是1GB，并认为减少这可能会解决问题。使用不同的协议和压缩来选择对象，并将其减少到60 MB。输入数据流是一个json记录，并对3个键应用预测。泡菜对象创建：以前： joblib.dump(pipeline, 'itemc_nb.pkl') 当前： joblib.dump(pipeline, 'itemc_nb.pkl',compress=1,protocol=-1) 我测试的另一个理论是运行流脚本的边缘节点上的内存消耗。在满容量的情况下，它以70%的速度运行，如所见边缘节点的容量为22 GB

浏览 0提问于2018-10-26得票数 0

回答已采纳

2回答

Intellij :在java.lang.VerifyError中运行火花代码

java、scala、intellij-idea、apache-spark

在IntelliJ思想中，我试图使用spark代码执行一个Java -这将导致java.lang.VerifyError。 StackTrace如下：错误执行器:任务0.0中的异常(TID 2) java.lang.VerifyError：(类：(Ljava/lang/Object;Ljava/lang/Object;)Lscala/Some；方法: tryCompare签名:tryCompare签名)错误的返回类型的函数在org.apache.spark.sql.catalyst.expressions.GeneratedClass.generate(Unknown源)在org.apac

浏览 3提问于2016-08-20得票数 1

回答已采纳

2回答

运行在星火阵上的Scala函数是否并行化？

scala、apache-spark

要将函数映射到RDD的所有元素，需要首先使用collect方法将RDD转换为Array类型： scala> val x = sc.parallelize(List(List("a"), List("b"), List("c", "d"))) x: org.apache.spark.rdd.RDD[List[String]] = ParallelCollectionRDD[1] at parallelize at <console>:12 scala> x.collect() res0: Array[Lis

浏览 3提问于2014-05-21得票数 2

回答已采纳

1回答

星星之火-如何在map()中创建新的RDDs？(对于执行者，SparkContext为null )

mongodb、apache-spark、mongodb-query

我有以下应用程序，它通过MongoDB Spark连接到MongoDB。我的代码崩溃了，因为对于执行器来说，SparkContext是空的。基本上，我从MongoDB读取数据，处理这些数据，这将导致需要发送到MongoDB的额外查询。最后一步是保存这些附加查询的数据。我使用的代码： JavaMongoRDD<Document> rdd = MongoSpark.load(sc); JavaMongoRDD<Document> aggregatedRdd = rdd.withPipeline(...); JavaPairRDD<String,

浏览 0提问于2016-11-11得票数 2

回答已采纳

1回答

使用sc.union时火花堆栈溢出错误

scala、apache-spark

我正在使用spark的scala，并试图结合3000 RDDs。我正在做一个for循环，迭代3000多个文本文件，创建一个RDD，并将旧的RDD和刚刚从文本文件创建的新RDD联合起来。这是我的代码： var tempRDD = sc.textFile(s"" + fileNameArray(ind)).filter(_.split(",",-1).length == cols).filter(line => line.split(",").filter(cell => cell.length > 0).length == c

浏览 2提问于2016-06-16得票数 2

回答已采纳

1回答

阿帕奇火花-卡桑德拉番石榴不相容

apache-spark、cassandra、spark-cassandra-connector

我正在使用Apache 2.1.0、Apache连接器2.0.0-M3和Cassandra驱动程序核心3.0.0，当我试图执行该程序时，我得到了以下错误： 17/01/19 10:38:27 WARN TaskSetManager: Lost task 1.0 in stage 1.0 (TID 5, 10.10.10.51, executor 1): java.lang.NoClassDefFoundError: Could not initialize class com.datastax.driver.core.Cluster at com.datastax.spark.conn

浏览 0提问于2017-01-19得票数 1

回答已采纳

1回答

pyspark中的K-均值聚类

python-3.x、pandas、pyspark、jupyter-notebook

我需要在预处理后的数据集中执行k-means聚类，但它给出了错误消息。有谁能帮帮我吗？首先，我在pyspark中读取数据，如下所示 import pyspark as spark from pyspark.sql.types import * from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config("spark.some.config.option

浏览 10提问于2019-05-29得票数 0

1回答

java.io.EOFException而不是空文件上的SequenceFile

scala、apache-spark、hadoop、sequencefile

我正试着用火花读一张桌子。 spark.table("table_name") sc.sequenceFile(path, classOf[Text], classOf[Text], 1000). map(x => x._2.toString.split(delimiter, -1)) 如果没有空文件，两者都可以工作；如果表中包含空文件，则两者都会在java.io.EOFException: /path/to/file/1612735495084_12eed62a-b1ee-4cf5-8b71-a87149acd9c8.sf not a SequenceFile中失败

浏览 5提问于2021-02-14得票数 1

回答已采纳

9回答

为什么Spark作业失败，org.apache.spark.shuffle.MetadataFetchFailedException:在猜测模式下缺少shuffle 0的输出位置？

apache-spark

我在投机模式下运行Spark作业。我有大约500个任务和大约500个文件的1 GB gz压缩。我一直在每个作业中，对于1-2个任务，附加的错误在之后重新运行几十次(阻止作业完成)。 org.apache.spark.shuffle.MetadataFetchFailedException:缺少随机播放0的输出位置你知道这个问题的意义是什么吗?如何克服它？ org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 at org.apache.spar

浏览 440提问于2015-03-06得票数 103

回答已采纳

1回答

使用DataFrame和Pandas制作列时出错

pandas、ipython、pyspark、spark-dataframe、jupyter-notebook

我使用的是spark1.5.1和Python3.5 anaconda distribution.My代码一直运行得很好，直到我在第7个单元 pd.DataFrame(CV_data.take(5), columns=CV_data.columns) 我在这个单元格上遇到错误 Py4JJavaError Traceback (most recent call last) <ipython-input-10-d3dfeab0b119> in <module>() ----> 1 pd.DataFrame(CV_data.take(5), columns=CV_dat

浏览 1提问于2016-06-29得票数 0

1回答

Spark未能使用MatrixFactorizationModel加载模型

java、apache-spark、apache-spark-mllib

我正在尝试使用星火协同过滤实现推荐系统。首先，我准备模型并保存到磁盘： MatrixFactorizationModel model = trainModel(inputDataRdd); model.save(jsc.sc(), "/op/tc/model/"); 当我使用单独的进程加载模型时，程序会失败，例外情况如下：代码： static JavaSparkContext jsc ; private static Options options; static{ SparkConf conf = new SparkConf().

浏览 1提问于2016-08-17得票数 1

回答已采纳

1回答

作业始终失败，错误信息隐晦："org.xerial.snappy.SnappyIOException：[EMPTY_INPUT]不能解压空流“--如何调试？

python、apache-spark、pyspark

我使用的是pyspark 2.4.0，一个大型作业一直在使用以下错误消息(无论是保存到拼板时还是试图收集结果时)： py4j.protocol.Py4JJavaError:调用o2495.collectToPython时发生了错误。：：org.apache.spark.SparkException:由于阶段失败而中止作业: 290.0阶段的任务184失败4次，最近的失败: 290.0阶段的任务184.3失败(TID 17345，53.62.154.250，执行者5)：org.xerial.snappy.SnappyInputStream.readHeader(SnappyInputStrea

浏览 0提问于2019-03-04得票数 4