通过scala spark中的值组合两个RDDs

在Scala Spark中，通过值组合两个RDDs可以使用以下方法：

使用union方法：union方法将两个RDDs的元素合并为一个RDD，不去重。例如：

val rdd1 = sc.parallelize(Seq(1, 2, 3))
val rdd2 = sc.parallelize(Seq(4, 5, 6))
val combinedRDD = rdd1.union(rdd2)

这将创建一个包含所有元素的RDD：[1, 2, 3, 4, 5, 6]。

使用zip方法：zip方法将两个RDDs的元素逐对组合成为一个新的RDD。两个RDDs必须具有相同的分区数和元素数量。例如：

val rdd1 = sc.parallelize(Seq(1, 2, 3))
val rdd2 = sc.parallelize(Seq("A", "B", "C"))
val combinedRDD = rdd1.zip(rdd2)

这将创建一个包含元组的RDD：[(1, "A"), (2, "B"), (3, "C")]。

使用cartesian方法：cartesian方法将两个RDDs的元素进行笛卡尔积操作，生成所有可能的组合。例如：

val rdd1 = sc.parallelize(Seq(1, 2))
val rdd2 = sc.parallelize(Seq("A", "B"))
val combinedRDD = rdd1.cartesian(rdd2)

这将创建一个包含元组的RDD：[(1, "A"), (1, "B"), (2, "A"), (2, "B")]。

这些方法可以根据具体的需求选择使用。在云计算中，这些操作可以用于数据处理、分析和挖掘等场景。对于腾讯云的相关产品和介绍，可以参考腾讯云官方文档：腾讯云产品文档。

如何在其他RDD映射方法中使用RDD？

、、

我有一个名为index的rdd : RDD(String，String)，我想使用index来处理我的文件。这是代码： val get = file.map({x => val tmp = index.lookup(x).head tmp }) 问题是我不能在file.map函数中使用索引，我运行了这个程序，它给了我这样的反馈： 14/12/11 16:22:27 WARN TaskSetManager: Lost task 0.0 in stage 3.0 (TID 602, spark2): scala.MatchError: null org.apache.

浏览 4提问于2014-12-11得票数 4

回答已采纳

1回答

将RDD转换为DataFrame时的java.lang.StackOverFlowError

、、、

尝试为大量RDD文档计算tf-idf分数，每当我尝试将其转换为数据帧时，它总是崩溃。我得到的初始错误是 org.apache.spark.SparkException: Job aborted due to stage failure: Task serialization failed: java.lang.StackOverflowError 然后是这个，重复了很多很多次： at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.Object

浏览 26提问于2019-11-08得票数 0

1回答

如何使用spark上下文访问web URL

我尝试使用textFile方法从spark-shell中使用WEB，但出现错误。也许这不是正确的方式。所以谁能告诉我如何从火花上下文访问web URL。我使用的是spark版本1.3.0；Scala版本2.10.4和Java 1.7.0_21 hduser@ubuntu:~$ spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcome to __ / / / / \ \/ \/ `/

浏览 0提问于2015-04-20得票数 9

回答已采纳

1回答

火花结构流失败双到检查点文件找不到

、、

我正在测试env上运行火花结构化流。有时，找不到某个检查点文件的作业失败。其中一个原因可能是卡夫卡的主题保留时间很短。但我已经将.option("failOnDataLoss", "false")添加到SparkSession中了。我对火花检查点有一些基本的(非常基本的)理解。如果删除检查点dir，我认为应该恢复它。但是，正如我测试的那样，一旦发生了这个错误，删除dir就没有帮助了。我需要使用不同的检查点dir来修复它。为什么删除检查点dir不起作用？或者是否有一种方法/选项可以帮助避免此错误？ diagnostics: User class t

浏览 0提问于2018-02-02得票数 8

2回答

星星之火:如何将List<RDD>与RDD结合

、、

我对spark和scala语言非常陌生，我希望将列表中的所有RDDs合并如下(List<RDD> to RDD)： val data = for (item <- paths) yield { val ad_data_path = item._1 val ad_data = SparkCommon.sc.textFile(ad_data_path).map { line => { val ad_data = new AdData(line) (ad_

浏览 6提问于2015-05-25得票数 8

回答已采纳

1回答

运行Scala和Spark时出错

、

我使用Scala2.11.8和Spark2.0.1来运行我的代码。在这一行代码中： import org.apache.spark.SparkConf import org.apache.spark.SparkContext object training { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("test").setMaster("local[4]") val sc = new SparkContext(conf)

浏览 2提问于2016-12-19得票数 0

回答已采纳

3回答

如何在数据源耗尽时停止spark流

、、、、

我有一个spark流作业，它每5秒从Kafka读取一次，对传入的数据进行一些转换，然后写入文件系统。这真的不需要是一个流作业，实际上，我只想每天运行一次，将消息排出到文件系统中。不过，我不确定如何停止这项工作。如果我向streamingContext.awaitTermination传递一个超时，它不会停止进程，它所做的只是在迭代流时导致进程产生错误(参见下面的错误)。完成我正在尝试做的事情的最佳方法是什么这是针对Python上的Spark 1.6的编辑：感谢@marios，解决方案是这样的： ssc.start() ssc.awaitTermination(10) ssc.sto

浏览 2提问于2016-01-30得票数 18

回答已采纳

2回答

Spark:迭代过大抛出stackoverflowError时的PageRank示例

、、、

我测试了spark默认PageRank示例，并将迭代设置为1024，然后它抛出stackoverflowerror。我在我的另一个program.How中也遇到了这个问题，我能解决它吗？ object SparkPageRank { def main(args: Array[String]) { if (args.length < 3) { System.err.println("Usage: PageRank <master> <file> <number_of_iterations>") Syst

浏览 3提问于2014-03-11得票数 8

1回答

迭代一个庞大的列表会导致gc开销限制超过

、、

我有一份很大的文件。对于文件的每一行(两个字)，我必须检查整个文件。我在scala中所做的显然是错误的，但我不知道如何修复它。此函数返回文件的所有行(大约300万！) def allSentences() : ArrayList[String] = { val res: ArrayList[String] = new ArrayList[String]() val filename = "/path/test.txt" val fstream: FileInputStream = new FileInputStream(filename)

浏览 1提问于2017-07-09得票数 1

回答已采纳

1回答

RDD中的SQL查询

、、

我必须使用Scala/Spark方法和SQL查询来操作RDD。是否可以通过查询直接使用RDD 操作？建议的方法(schemaRDD或DataFrame)需要额外的内存泄漏。经过这样的转换，我记忆中有两个相同的巨大物体。

浏览 2提问于2016-02-08得票数 1

2回答

起因: org.apache.spark.sql.Dataset的java.lang.NullPointerException

、、、

下面我提供了我的代码。我遍历了DataFrame prodRows，对于每个product_PK，我从prodRows中找到了一些匹配的product_PKs子列表。 numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = Map() prodRows.foreach{ row : Row => val product_PK = row.get(row.fieldIndex("product_PK")).toString.toLong val gend

浏览 3提问于2017-11-18得票数 5

回答已采纳

1回答

使用sc.union时火花堆栈溢出错误

、

我正在使用spark的scala，并试图结合3000 RDDs。我正在做一个for循环，迭代3000多个文本文件，创建一个RDD，并将旧的RDD和刚刚从文本文件创建的新RDD联合起来。这是我的代码： var tempRDD = sc.textFile(s"" + fileNameArray(ind)).filter(_.split(",",-1).length == cols).filter(line => line.split(",").filter(cell => cell.length > 0).length == c

浏览 2提问于2016-06-16得票数 2

回答已采纳

2回答

将成对RDD中的值相减

、

我是Scala和Spark的新手。有两个RDDs，比如 RDD_A= (keyA,5)，(KeyB,10) RDD_B= (keyA,3)，(KeyB,7) 如何计算: RDD_A-RDD_B，这样我得到(keyA,2)，(KeyB,3) 我尝试了subtract和subtractByKey，但无法获得类似于上面的输出

浏览 32提问于2020-05-18得票数 0

1回答

如何修正“错误:遇到无法恢复的周期解析导入”？

、、

如何解决以下编译错误？ SOApp.scala:7: error: encountered unrecoverable cycle resolving import. Note: this is often due in part to a class depending on a definition nested within its companion. If applicable, you may wish to try moving some members into another object. import spark.implicits._ 代码： object SOAp

浏览 4提问于2020-04-04得票数 3

回答已采纳

1回答

为什么spark即使没有磁盘上的持久化或检查点，也会将大文件写入临时本地磁盘？

、、、

我正在集群上运行一个小作业，每台机器有15G的内存和8G的磁盘。作业总是会陷入死锁，最后一条错误消息是： java.io.IOException: No space left on device at java.io.FileOutputStream.writeBytes(Native Method) at java.io.FileOutputStream.write(FileOutputStream.java:345) at org.apache.spark.storage.DiskBlockObjectWriter$TimeTrackingOutputStream

浏览 1提问于2015-02-11得票数 1

1回答

PySpark MLLib齐柏林飞艇逻辑回归度量错误: AssertionError:维度不匹配

、、

我正在尝试用MLLib在Pyspark中运行逻辑回归。模型运行了，但我无法获得任何指标。我的数据是csv格式，我按如下方式进行转换： def load(prefix): lines = spark.read.text(prefix).rdd parts = lines.map(lambda row: row.value.split(",")) ratingsRDD = parts.map(lambda p: Row(pct = str(p[0]), date = str(p[1]), res_burg_label=int(p[2]), com_burg

浏览 1提问于2018-03-17得票数 0

1回答

计算tf - idf时的Pyspark - MetadataFetchFailedException

、、、、

我正在处理一个初始大小为569 MB的数据集，计算TF-IDF度量。尽管我最终得到了结果，但我仍然得到以下错误： WARN scheduler.TaskSetManager: Lost task 13.0 in stage 11.0 (TID 84, X.X.X.X, executor 0): FetchFailed(null, shuffleId=4, mapId=-1, reduceId=4, message= org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shu

浏览 33提问于2021-10-31得票数 1

2回答

Scala/Spark在输出结果之前等待一个函数完成

、、、

我在scala中有以下实用程序函数： object MyUtiltity { def processData(data1: org.apache.spark.rdd.RDD[String], data2: org.apache.spark.rdd.RDD[String], data3: org.apache.spark.rdd.RDD[String]) = { function1(data1, data3) function2(data2, data3) } private def function1 {...} private def fun

浏览 0提问于2015-06-05得票数 0

回答已采纳

1回答

在KryoSerializer和JavaSerializer上使用Scala酸洗序列化

、、、、

在为Serialization搜索最佳apache-spark技术的同时，我在下面的链接中发现，使用该框架，在scala中的Serialization将更快、更自动。由于Scala Pickling具有以下优点。(参考文献- ) 因此，我想知道这个Scala Pickling (PickleSerializer)是否可以用于apache-spark而不是KryoSerializer。如果是的话，需要做什么必要的改变。(示例将有帮助) 如果没有，为什么不呢。(请解释) 提前谢谢。如果我错了请原谅我。注意:我正在使用scala语言编写apache-spark (版本)。1.4

浏览 4提问于2017-03-21得票数 2

回答已采纳

2回答

textFile中的defaultMinPartitions

我最近开始在纱线上使用spark，在调优我的程序时发现了一个问题。当SparkContext被初始化为sc并准备从hdfs读取文本文件时，将调用textFile(path, defaultMinPartitions)方法。我跟踪了spark源代码中的第二个参数，最终找到了这个参数：CoarseGrainedSchedulerBackend.scala中的conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)) 我没有指定属性“spark.default.parallelism” an

浏览 2提问于2014-07-22得票数 1

1回答

streaming.StreamingContext:启动上下文时出错，将其标记为已停止[星火流]

、、、、

我试着运行一个示例星火流代码。但我知道这个错误： 16/06/02 15:25:42 ERROR streaming.StreamingContext: Error starting the context, marking it as stopped java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute at scala.Predef$.require(Predef.scala:233) at org.apache.spark

浏览 3提问于2016-06-03得票数 1

1回答

PySpark在使用boto3读取大文件时抛出java.io.EOFException

、、、

我使用boto3从S3读取文件，这表明比sc.textFile(...)快得多。这些文件大约在300 1GB到1GB之间。这个过程是这样的： data = sc.parallelize(list_of_files, numSlices=n_partitions) \ .flatMap(read_from_s3_and_split_lines) events = data.aggregateByKey(...) 在运行此进程时，我会得到以下异常： 15/12/04 10:58:00 WARN TaskSetManager: Lost task 41.3 in stage 0.0 (TI

浏览 12提问于2015-12-04得票数 2

1回答

如何删除星火(SCALA)中的整个数据帧？

有一些函数可以删除Spark(SCALA)中的列和行，但是却找不到任何函数来删除整个数据frame.Is，有一种方法可以删除Spark(SCALA)中的数据帧吗？

浏览 0提问于2016-10-15得票数 3

1回答

在星火中使用mapPartitions或除法器按键进行有效分组

、、

所以，我有如下数据， [ (1, data1), (1, data2), (2, data3), (1, data4), (2, data5) ] 我想将其转换为以下内容，以供进一步处理。 [ (1, [data1, data2, data4]), (2, [data3, data5]) ] 我使用了groupByKey和reduceByKey，但是由于数据量很大，它失败了。数据不是很高，而是很宽。换句话说，键在1到10000之间，但是值列表从100 K到900 k不等。我正在努力解决这个问题，并计划应用mapPartitions或(Hash)partitioner。所以，如果其中一个可行

浏览 5提问于2016-01-26得票数 6

1回答

reduceByKey可以用于多个值吗？

、、、

我刚刚开始学习spark和scala，并在RDDs上测试一些转换和操作。我发现reduceByKey的用法如下： rdd.reduceByKey((x, y) => x + y) 在in中，它接受两个相同值的元组，并使用加法操作将它们组合在一起。现在我的问题是，我们是否可以一次相加两个以上的值，或者一次相加所有具有相同键的值？如下所示： rdd.reduceByKey((p, q, r, s) => p+q+r+s) 为什么只添加两个值？添加两个以上的值还可以节省大量的计算吗？

浏览 1提问于2018-10-21得票数 0

1回答

我如何将RDD[Map[String，Any]]转换为dataframe？

、、、、

我有一个RDD[MapString，Any]，我正在尝试将它转换为Dataframe。我没有可以指定Dataframe的架构。我试着做了一个rdd.toDF，但是没有帮助。它出现了一个错误，如下所示。 Exception in thread "main" java.lang.ClassNotFoundException: scala.Any at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lang.ClassLoader.loadClass(ClassLoader.ja

浏览 2提问于2019-11-14得票数 2

1回答

原因: org.apache.kafka.clients.producer.KafkaProducer :java.io.NotSerializableException

、、

我试着用kafka生产者发送java字符串消息。字符串消息是从Java中提取的。 JavaPairDStream<String, String> processedJavaPairStream = inputStream.mapToPair (record-> new Tuple2<>(record.key(), record.value())).mapValues(message -> message.replace('>', '#')); String outTopics = &#

浏览 9提问于2019-09-18得票数 0

回答已采纳

1回答

独立星系团中的内存错误是“关闭JVM，因为ActorSystem[Remote]启用了akka.jvm-退出致命错误”。

、、

在我的代码经过140次迭代之后，我在独立星火集群中得到了以下内存错误。如何在没有内存错误的情况下运行代码？我有7个具有8GB RAM的节点，其中6GB分配给所有工作人员。主程序也有8GB的RAM。 [error] application - Remote calculator (Actor[akka.tcp://Remote@127.0.0.1:44545/remote/akka.tcp/NotebookServer@127.0.0.1:50778/user/$c/$a#872469007]) has been terminated !!!!! [info] application - Vi

浏览 3提问于2016-02-08得票数 0

1回答

RDD遍历中的Spark & Scala - NullPointerException

、、

我有许多CSV文件，需要通过文件名的一部分将它们合并到RDD中。例如，对于以下文件 $ ls 20140101_1.csv 20140101_3.csv 20140201_2.csv 20140301_1.csv 20140301_3.csv 20140101_2.csv 20140201_1.csv 20140201_3.csv 我需要将名为20140101*.csv的文件组合到一个RDD中来处理，等等。我使用sc.wholeTextFiles读取整个目录，然后根据文件名的模式对文件名进行分组，以形成一个文件名字符串。然后，我将字符串传递给sc.textFile，将文

浏览 3提问于2015-07-21得票数 0

回答已采纳

1回答

在spark中高效地使用联合

、、

我是scala和spark的新手，现在我有两个RDD，比如A is (1,2)，(2,3)和B is (4,5)，(5,6)，我想得到RDD，比如(1,2)，(2,3)，(4,5)，(5,6)。但问题是我的数据很大，假设A和B都是10 is。我使用sc.union(A，B)，但它很慢。我在spark UI中看到这个阶段有28308个任务。有没有更有效的方法来做到这一点？

浏览 3提问于2017-04-22得票数 0

2回答

使用星火(或SparkStreaming)插入TitanDB上的数据

、、

我试图使用TitanDB (从卡夫卡队列中收集消息)向SparkStreaming添加元素。但这似乎比预期的要难。这里是泰坦连接的定义： val confPath: String = "titan-cassandra-es-spark.properties" val conn: TitanModule = new TitanModule(confPath) Titan模块是一个配置Serializable连接的TitanDB类： ... val configurationFilePath: String = confFilePath val configuration = n

浏览 2提问于2016-05-30得票数 1

回答已采纳

1回答

如何从SocketTCP获取数据以保存到Scala中的数据？

、、

--我尝试从Socket获取数据以附加到dataframe --我接收了数据并将其执行到Seq()中，但是当我使用forEach将它们附加到dataframe时，有一个问题--这是我的代码： object CustomReceiver { def main(args: Array[String]): Unit = { StreamingExamples.setStreamingLogLevels() // Create the context with a 1 second batch size val spark: SparkSession = SparkS

浏览 2提问于2021-06-21得票数 0

回答已采纳

1回答

如何让星火使用Kryo序列化对象？

、、

我希望将一个对象从驱动程序节点传递到RDD驻留的其他节点，这样RDD的每个分区都可以访问该对象，如下面的代码段所示。 object HelloSpark { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setAppName("Testing HelloSpark") .set("spark.serializer", "org.apache.spark.serializer.Kr

浏览 2提问于2015-02-17得票数 7

2回答

火花:围绕嵌套的RDD工作

、、

有两张桌子。第一个表有两个字段book1和book2的记录。这些书通常是一对一地一起阅读的。第二个表包含这些书籍的books和readers列，其中books和readers分别是图书ID和阅读器ID。对于第二个表中的每一个读者，我需要在对表中找到相应的书籍。例如，如果读者阅读书籍1,2,3，而我们有对(1,7)，(6,2)，(4,10)，则该阅读器的结果列表应该有书籍7,6。我首先根据读者对书籍进行分组，然后迭代对。每本书成对，我试着与用户列表中的所有书籍匹配： import org.apache.spark.SparkConf import org.apache.spark.SparkC

浏览 2提问于2015-06-09得票数 0

回答已采纳

5回答

Apache Spark Codegen阶段超过64 KB

、、、

当我在创建关于200+列的30+列上进行功能工程时，我得到了一个错误。这不是作业失败，但显示了错误。我想知道怎样才能避免这种情况。 Spark - 2.3.1 Python - 3.6 群集配置-1主机- 32 GB RAM，16核，4从- 16 GB RAM，8核输入数据-8分区拼图文件与快速压缩。我的火花-提交-> spark-submit --master spark://192.168.60.20:7077 --num-executors 4 --executor-cores 5 --executor-memory 10G --driver-cores 5 --driver-

浏览 7提问于2018-06-17得票数 18

1回答

如何使用spark在HDFS上生成随机矩阵文件

、、

我正在研究如何使用spark。在scala中，我有一段这样的代码： object GeneMatrixFile { def main (args: Array[String]) { val out = new FileWriter("matrix.txt") val order = 20000 for(i<- 1 to order){ for(j <- 1 to order){ out.write((scala.util.Random.nextDouble()*100).formatted("%3.1f&#

浏览 1提问于2015-04-20得票数 0

1回答

火花流作业不可恢复

、

我使用的是火花流作业，它使用带有初始RDD的mapWithState。当重新启动应用程序并从检查点恢复时，它将失败，错误如下：这个RDD缺少一个SparkContext。这种情况可能发生在以下情况： RDD转换和操作不是由驱动程序调用的，而是在其他转换中调用的；例如，rdd1.map(x => rdd2.values.count() * x)无效，因为值转换和计数操作不能在rdd1.map转换中执行。有关更多信息，请参见火花-5063。当火花流作业从检查点恢复时，如果在DStream操作中使用对流作业未定义的RDD的引用，则会触发此异常。有关更多信息，请参见火花-13758。

浏览 12提问于2017-06-23得票数 12

1回答

带字典的PySpark约简键

、、、、

为什么Spark强制从元组列表中构建RDD，以便在进行还原键转换的情况下？ reduce_rdd = sc.parallelize([{'k1': 1}, {'k2': 2}, {'k1': -2}, {'k3': 4}, {'k2': -5}, {'k1': 4}]) print(reduce_rdd.reduceByKey(lambda x, y: x + y).take(100)) 错误： for k, v in iterator: ValueError: need more than 1 v

浏览 0提问于2018-01-18得票数 1

1回答

Apache Spark join操作的弱伸缩性差

、、、

我在Apache Spark上运行"join“操作，发现没有弱可伸缩性。如果有人能解释这一点，我将不胜感激。我创建了两个数据帧("a"，"b")和("a"，"c")，并通过第一列连接这两个数据帧。我为“一对一”连接生成数据帧值。此外，我使用相同的分割器来避免混洗。数据帧中的行数- 1024 * 1024 * 16 * cores_total (cores_total -在其上启动程序的核心总数)。列"a“由随机Int值组成，"b”列的所有值等于1，"c“列的所有值等于2。理论上，随着数据大小和

浏览 0提问于2017-10-04得票数 3

2回答

当联合大量的RDD抛出堆栈溢出错误时引发火花

、

当我使用"++“来组合大量的RDDs时，我得到的是错误堆栈，而不是流错误。火花版本1.3.1环境:纱线-客户端。-驱动器-内存8G RDDs的数量超过4000。每个RDD从大小为1GB的文本文件中读取。它就是这样产生的。 val collection = (for ( path <- files ) yield sc.textFile(path)).reduce(_ union _) 当files的尺寸很小时，它可以很好地工作。这是个错误错误会重复发生。我想它是一个递归函数，调用时间太多了吗？ Exception at org.apache.spark.rdd.RDD

浏览 6提问于2015-05-29得票数 15

回答已采纳

1回答

如何在齐柏林飞艇中用Spark sql查询spark StreamingContext？

、、、、

我正在尝试使用spark sql来查询来自kafka的数据，使用zeppelin进行实时趋势分析，但没有成功。下面是我在zeppelin中运行的简单代码片段 //Load Dependency %dep z.reset() z.addRepo("Spark Packages Repo").url("http://repo1.maven.org/maven2/") z.load("org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.1") z.load("

浏览 0提问于2016-12-03得票数 1

1回答

重新划分(1)是否一直保持秩序？

、、

我需要压缩两个可能有或可能没有相同分区的rdd，因此寻找重新分区的方法。我需要保持秩序，同时拉链，我知道重新划分洗牌一般。但下面的代码显示，repartiton(1)并不是在对rdd进行洗牌。是只有这一次，还是我们每次都能保证？重分区(1)是否与.collect相似，因为它们都将rdd带到单个节点？ scala> var k = sc.parallelize((1 to 100),4) k: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:27 sca

浏览 0提问于2017-05-19得票数 0

1回答

PySpark错误java.lang.OutOfMemoryError:超过GC开销限制

如何修复GC overhead limit exceeded版本2.2.1中发生的PySpark。安装在Ubuntu 16.04.4上。在Python3.5.2脚本中，我设置为： spark = SparkSession.builder.appName('achats_fusion_files').getOrCreate()

浏览 0提问于2018-03-14得票数 4

回答已采纳

1回答

方法导致OutofMemory异常

、

我们使用Apache Beam，它是在火星车上执行的。我们的案件如下。这两个用例都会导致OutofMemory错误。 1)连接-2个使用Apache的大表--一个大小为120 is的表，另一个为60 is的表。这会在OutofMemory ()内部调用groupByKeyOnly()时导致GroupCombineFunctions.java错误。 2) GroupByKey --我们根据如下键对数据集进行分组。PCollection>> costBasisRecords = masterDataResult.apply(GroupByKey.create())；此GroupbyK

浏览 1提问于2017-12-16得票数 0

回答已采纳

1回答

连接多个配对

、

我有一个关于同时加入多个rdds的问题。我有大约8对RDD的数据类型:RDD [(String，mutable.HashSetString)]。我想按键加入他们。我可以使用spark的join或cogroup加入2吗？但是，有没有内置的方法可以做到这一点呢？我可以一次加入两个，然后将结果rdd与下一个rdd结合起来，但是如果有更好的方法，我想使用它。

浏览 1提问于2015-08-31得票数 2

2回答

使用pyspark解析json流

、、、

我是Spark Streaming的新手，我正在尝试使用pyspark读取和解析来自Kafka的JSON流。读取流是可以的，而且我也可以pprint() RDDs。 {"Address":"22.79.52.79","AlarmProfile":"-1","Amps":"11.98","AmpsLimit":"90","AssetTag":"-1","AssetTag_1":"-1","Blan

浏览 3提问于2016-03-04得票数 1

1回答

在Spark中配置函数/lambda序列化

、、、、

如何将星火配置为将KryoSerializer用于lambdas？还是我在星火里发现了窃听器？我们对其他地方的数据序列化没有问题，只是在这些lambda中，它使用的是默认值而不是Kryo。下面是代码： JavaPairRDD<String, IonValue> rdd; // provided IonSexp filterExpression; // provided Function<Tuple2<String, IonValue>, Boolean> filterFunc = record -> myCustomFilter(filterExpr

浏览 5提问于2019-11-16得票数 4

回答已采纳

4回答

如何在两个应用程序之间共享Spark RDD中的数据

、、

在两个spark作业之间共享spark RDD数据的最佳方式是什么。我有一个案例，其中作业1:火花滑动窗口流应用程序，将以定期间隔消耗数据并创建RDD。这是我们不想保存到存储中的。作业2:将访问在作业1中创建的相同RDD并生成报告的查询作业。我看到他们建议SPARK Job Server的查询很少，但由于它是一个开源的，不确定它是否是一个可能的解决方案，但任何指针都会有很大的帮助。谢谢！

浏览 5提问于2016-01-19得票数 4

1回答

Spark worker抛出错误SendingConnection:将SendingConnection读取到ConnectionManagerId时出现异常

、、

我正在尝试使用spark执行一个简单的应用程序示例代码。使用spark submit执行作业。spark-submit --class "SimpleJob“--master spark://:7077 target/scala-2.10/simple-project_2.10-1.0.jar 15/03/08 23:21:53 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 15/03

浏览 2提问于2015-03-09得票数 0

1回答

在pyspark数据帧计数函数中获取`java.nio.BufferOverflowException`

、、、

我正在使用以下环境：spark = 2.0.0、hdp = 2.5.3.0、python = 2.7、yarn-client 我的PySpark代码大部分时间都工作得很好。然而，有时我在df.count()函数上遇到以下异常适用于我的代码： df= spark.read.orc("${path}") df.count() 我得到异常的代码： df= spark.read.orc("${path}") df = df.cache() df.count() 堆栈跟踪： Job aborted due to stage failure: Task 0 in s

浏览 0提问于2017-01-19得票数 0