如何计算spark RDD中出现的次数并将其作为字典返回？_如果单词在字典中，我如何计算每行中的单词出现次数_如何计算一个整数在列表中的出现次数并正确输出？ - 腾讯云开发者社区

、

下面的代码将导致NullPointerException。我不确定，这个异常是发生在某些行上，还是总是因为dataframe很大而无法指向行。 def removeUnwantedLetters(str: String): String = { str.split("\\W+").filter(word => (word.matches("[a-z]+") && (word.length > 1))).mkString(" ") } val myudf = spark.udf.register("le

浏览 0提问于2018-11-30得票数 0

回答已采纳

2回答

spark RDD容错的误区

、、、、

很多人说： Spark不会在hdfs中复制数据。 Spark安排了DAG中的操作，构建graph.Spark谱系。如果RDD丢失，它们可以在谱系图的帮助下重建。因此，不需要数据复制，因为可以从谱系图重新计算RDDS。我的问题是：如果一个节点出现故障，spark只会重新计算这个节点上丢失的RDD分区，但是重新计算过程中需要的数据源从哪里来？你的意思是，当节点发生故障时，它的父RDD还在吗?如果丢失了一些分区的RDD没有父RDD (比如RDD来自spark streaming receiver)，该怎么办？

浏览 0提问于2017-09-06得票数 5

1回答

用电火花将时间戳写到Postgres

、、、、

我正在Python上开发一个Spark脚本(使用Pyspark)。我有一个函数，它用一些字段返回一个Row，包括 timestamp=datetime.strptime(processed_data[1], DATI_REGEX) processed_data1是一个有效的日期时间字符串。编辑显示完整的代码： DATI_REGEX = "%Y-%m-%dT%H:%M:%S" class UserActivity(object): def __init__(self, user, rows): self.user = int(user)

浏览 5提问于2017-01-19得票数 0

回答已采纳

1回答

Scala:星星之火用于拟合多项式曲线，got“类型(char[])不能转换为字符串类型”错误

、、、

我试图在类似于下面的星火数据框架上进行多项式曲线拟合(使用Spark版本2.4.0.7.1.5，ScalaVersion2.11.12 (OpenJDK 64位服务器VM，1.8.0_232))。我为此编写了一个联非新议程，它可以注册，但在运行时得到一个错误。我是斯卡拉和联非新议程的新手。你能帮我看看我的功能，看看它有什么问题吗？谢谢, 示例df val n = 2 val data = Seq( (1,80.0,-0.361982467), (1,70.0,0.067847447), (1,50.0,-0.196768255), (1,40.0,-0.135489192)

浏览 21提问于2022-04-07得票数 0

回答已采纳

1回答

为文本文件中的每条记录创建正/负计数矩阵

、

我正在尝试使用Apache Spark (使用Scala)中的一大堆肯定和否定词对一些评论数据进行情感分析。我是Scala的新手，所以需要一些帮助。程序如下所示：读取RDDs中的正/负。 val pos_words = sc.textFile("D:/spark4/mydata/pos-words.txt") val neg_words = sc.textFile("D:/spark4/mydata/neg-words.txt") 将评论读入RDD val dataFile = sc.textFile("D:/spark4/mydata/review_

浏览 1提问于2015-12-18得票数 0

3回答

火花-卡桑德拉-连接器火花误差

、、、

我试图与卡桑德拉-梅索斯-火花一起工作，我想问一下是否有人能帮我解决这个错误，我用了火花2.2试连接器1.6.11和其他，但我不知道为什么我要得到这个。环境： spark-2.3.0-bin-hadoop2.7.tgz datastax:spark-cassandra-connector:2.0.7-s_2.11 scala 11 Mesos簇 Python应用程序代码： import sys from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext sp_c

浏览 2提问于2018-04-07得票数 0

2回答

统计每个字符串的值的出现次数

、、

我在表格上找到一份文件 org.apache.spark.rdd.RDD[(String, Array[String])] = MapPartitionsRDD[364] 这是一个文件，我在其中获得了几个键(string)和每个键的许多值(Array[String])。我希望能够计算每个单独字符串的值中每次出现的次数。我尝试了不同的方法，但我还没有找到任何有效的方法。

浏览 0提问于2018-03-16得票数 0

2回答

Greenplum Spark Connector org.postgresql.util.PSQLException:错误:将数据写入gpfdist时出错

、、、

我在Azure上有一个Greenplum集群，我正尝试从本地计算机使用spark连接到该集群(使用Pivotal Greenplum Spark Connector)。我在我的scala代码中做了这样的事情： var options = Map[String, String]() options += ("url" -> url) options += ("user" -> credential("user")) options += ("password" -> credential("passwo

浏览 134提问于2020-03-25得票数 0

1回答

火花机学习: RDD变得不可读

、、、

我正在尝试将向量数据类型提供给一个名为mllib的Word2Vec函数。当Word2Vec返回一个包含所需向量的“结果”列的DataFrame时，需要一些代码。最后，当代码在Spark中成功运行时，我尝试使用.foreach来println几行代码。火花在这一步崩溃，有以下错误：NullPointerException。如果删除println命令，代码将运行良好。我试过使用RDD的示例方法，但同样的火花错误出现了。不知何故，RDD变得不可读了。若要了解此ML任务的背景，请参阅此。 import org.apache.spark._ import org.apache.spark.rdd._

浏览 0提问于2018-03-19得票数 1

回答已采纳

1回答

如何在sparkcontext.parallelize(.......).map()内部执行配置单元查询？

、

我无法执行下面的代码。此代码尝试在SparkContext runJob()方法中使用SparkSession从配置单元表执行配置单元查询。 val lines = sparkSession.sparkContext.parallelize(Seq("hello world"),1) sparkSession.sparkContext.runJob(lines, (t: TaskContext, it: Iterator[String]) => { val conf = new SparkConf().setAppName("Testing") val

浏览 4提问于2018-12-17得票数 1

1回答

使用DataFrame和Pandas制作列时出错

、、、、

我使用的是spark1.5.1和Python3.5 anaconda distribution.My代码一直运行得很好，直到我在第7个单元 pd.DataFrame(CV_data.take(5), columns=CV_data.columns) 我在这个单元格上遇到错误 Py4JJavaError Traceback (most recent call last) <ipython-input-10-d3dfeab0b119> in <module>() ----> 1 pd.DataFrame(CV_data.take(5), columns=CV_dat

浏览 1提问于2016-06-29得票数 0

2回答

我如何才能在PySpark中得到一个不同的数据集？

、、、

我有一个字典的RDD，我想得到一个只包含不同元素的RDD。但是，当我试图打电话给 rdd.distinct() PySpark给出了以下错误 TypeError: unhashable type: 'dict' at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166) at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:207) at org.ap

浏览 5提问于2016-02-19得票数 2

回答已采纳

1回答

java.io.IOException:帧大小[...]大于最大长度[...]！

、

我在独立模式下运行Spark + Alluxio进行数据访问。更具体地说，我有一个火花大师和一个火花工作者。当运行我的作业时，我得到以下错误： 17/03/22 14:35:43 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 10.254.22.6): java.io.IOException: Frame size (67108864) larger than max length (16777216)! at alluxio.AbstractClient.checkVersion(AbstractClient

浏览 78提问于2017-03-23得票数 0

1回答

pyspark中的json文件中的记录已损坏，原因是作为条目为False

、、、、

我有一个如下所示的json文件： test= {'kpiData': [{'date': '2020-06-03 10:05', 'a': 'MINIMUMINTERVAL', 'b': 0.0, 'c': True}, {'date': '2020-06-03 10:10', 'a': 'MINIMUMINTERVAL', 'b': 0.0, 'c

浏览 24提问于2021-05-10得票数 0

回答已采纳

3回答

在java中加入spark RDD时需要帮助

、、

需要在spark中执行以下join操作 JavaPairRDD<String, Tuple2<Optional<MarkToMarketPNL>, Optional<MarkToMarketPNL>>> finalMTMPNLRDD = openMTMPNL.fullOuterJoin(closedMTMPNL); 要执行此操作，我需要两个JavaPairRDD，即closedMTMPNL和openMTMPNL。OpenMTM和closeMTM运行得很好，但是两个RDD上的keyBy在运行时都出现了错误。 JavaPairRDD<Strin

浏览 0提问于2015-06-28得票数 1

2回答

这样的打印不能因为类型错配(单位和字符串)而减少吗？

、、

我想在文件中打印内容，下面的代码是我如何做到这一点的。 import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD object SimpleSpark { def main(arg: Array[String]) = { val distFile = sc.textFile("/a/path/to/a/file")

浏览 1提问于2015-12-02得票数 0

回答已采纳

2回答

Apache火花中的数据集

、、

Dataset<Tweet> ds = sc.read().json("path").as(Encoders.bean(Tweet.class)); ds.show(); JavaRDD<Tweet> dstry = ds.toJavaRDD(); System.out.println(dstry.first().getClass()); Caused by: java.util.concurrent.ExecutionException: org.codehaus.commons.compiler.CompileException: File '

浏览 1提问于2018-04-29得票数 2

回答已采纳

1回答

PYSPARK :从RDD读取错误

、

我正试着从我的RDD中阅读，但得到的错误。请给我建议。该文件存在于HDFS中。我使用hadoop文件系统命令将文件移动到HDFS。代码： baby_names = sc.textFile("/user/rahul/baby_names.csv") rows = baby_names.map(lambda line:line.split(",")) for row in rows.take(rows.count()):print(row[1]) 错误： Py4JJavaError Traceback (

浏览 3提问于2017-02-14得票数 0

1回答

如何在Java / Kotlin中创建一个返回复杂类型的Spark？

、、、

我试图编写一个返回复杂类型的UDF： private val toPrice = UDF1<String, Map<String, String>> { s -> val elements = s.split(" ") mapOf("value" to elements[0], "currency" to elements[1]) } val type = DataTypes.createStructType(listOf( DataTypes.createStructField(

浏览 1提问于2018-06-20得票数 7

1回答

如何在Java中创建接受字符串数组的Spark UDF？

、

这个问题已经被问到了Scala的，但它对我没有帮助，因为我正在使用Java API。我真的把所有的东西和厨房的水槽都扔进去了，所以这是我的方法： List<String> sourceClasses = new ArrayList<String>(); //Add elements List<String> targetClasses = new ArrayList<String>(); //Add elements dataset = dataset.withColumn("Transformer", callUDF(

浏览 40提问于2019-11-25得票数 1

回答已采纳

2回答

Scala/Spark在输出结果之前等待一个函数完成

、、、

我在scala中有以下实用程序函数： object MyUtiltity { def processData(data1: org.apache.spark.rdd.RDD[String], data2: org.apache.spark.rdd.RDD[String], data3: org.apache.spark.rdd.RDD[String]) = { function1(data1, data3) function2(data2, data3) } private def function1 {...} private def fun

浏览 0提问于2015-06-05得票数 0

回答已采纳

1回答

数据库连接与外部图书馆

、、、

我正在使用Azure上的databricks，我的部分流程包括使用TwoSigma的。我将库上传到databricks库，并且能够在databricks工作区上的笔记本中运行下面的示例代码。当我尝试使用databricks-connect时，问题就出现了。通常情况下，当尝试使用外部库(包括Flint )时，运行在spark-shell --packages 'com.twosigma:flint:0.6.0'下的以下代码会产生以下错误。 import org.apache.spark.sql.functions._ import com.twosigma.flint.time

浏览 1提问于2019-11-17得票数 2

1回答

如何获得Scala数据的相关矩阵

、、、、

浏览 6提问于2022-03-17得票数 0

1回答

从Spark中通过JDBC提取表数据时的PostgreSQL错误

、、、

我让连接正常工作，但两天后，从表中提取数据出现了问题。星火的配置没什么改变..。简单步骤1-从HAWQ中的简单表打印模式，我可以创建一个SQLContext DataFrame并连接到HAWQ： df = sqlContext.read.format('jdbc').options(url=db_url, dbtable=db_table).load() df.printSchema() 其中的指纹： root |-- product_no: integer (nullable = true) |-- name: string (nullable = true) |--

浏览 6提问于2015-09-24得票数 1

回答已采纳

2回答

ValueError: object (3)的长度与字段长度不匹配

、、

我手动创建PySpark DataFrame，如下所示： acdata = sc.parallelize([ [('timestamp', 1506340019), ('pk', 111), ('product_pk', 123), ('country_id', 'FR'), ('channel', 'web')] ]) # Convert to tuple acdata_converted = acdata.map(lambda x: (x[0][1], x[1][1], x[2

浏览 1提问于2017-11-08得票数 3

回答已采纳

2回答

执行顺序和缓存需求

、、、、

让我们考虑这样一个使用spark的python伪代码片段。 rdd1 = sc.textFile("...") rdd2 = rdd1.map().groupBy().filter() importantValue = rdd2.count() rdd3 = rdd1.map(lambda x : x / importantValue) 在spark的tasks的DAG中，有两个分支，在创建rdd1之后。两个分支都使用rdd1，但第二个分支(计算rdd3)也使用来自rdd2的聚合值(importantValue)。我假设DAG看起来像这样：我

浏览 1提问于2018-05-08得票数 2

1回答

如何从RDD中提取字段

、、

我不是很擅长RDD，请帮我从RDD中提取2个字段，并创建一个新的更简单的RDD，然后我可以操纵/转换等。下面是1个RDD记录示例。(这是使用scala spark) RF_RDD: org.apache.spark.rdd.RDD[(String, String)] = ScalaEsRDD[32] at RDD at AbstractEsRDD.scala:37 (AXObQ5JaIXI8icz9PfkJ,{"Indicator":{"Type":{"@type":"Vocabs:IndicatorTypeVocab-1.1"

浏览 45提问于2020-08-26得票数 0

1回答

使用Spark和独立Spark程序时的不同行为

、

当我通过Spark运行此代码时： val sc = new SparkContext("local[4]" , "") val x = sc.parallelize(List( ("a" , "b" , 1) , ("a" , "b" , 1) , ("c" , "b" , 1) , ("a" , "d" , 1))) val byKey = x.map({case (sessionId,uri,count) =>

浏览 2提问于2014-06-06得票数 1

回答已采纳

1回答

spark streaming -在一个流中创建tmp视图，在另一个流中使用

、、、

我尝试运行2个数据流，在第一个数据流中生成Dataframe，将df注册为tmp视图，然后在另一个数据流中使用它，如下所示： dstream1.foreachRDD { rdd => import org.apache.spark.sql._ val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate import spark.implicits._ import spark.sql val records = rdd.toDF("record") r

浏览 2提问于2017-03-07得票数 0

3回答

使用Spark 1.4 API读取ORC文件时的NPE

、、、

我在Spark中读取了许多ORC文件，并对其进行了处理，这些文件基本上都是Hive分区。大多数情况下，处理过程都很顺利，但对于少数文件，我得到了以下异常，不知道为什么？这些文件在使用配置单元查询的配置单元中工作得很好。 DataFrame df = hiveContext.read().format("orc").load("/path/in/hdfs"); java.lang.NullPointerException at org.apache.spark.sql.hive.HiveInspectors$class.unwrapperFor(Hive

浏览 1提问于2015-09-08得票数 1

1回答

错误:调用fit()函数时，“Python未能连接”

、

我正在尝试为文本分类训练一个ANN： mlp = MultilayerPerceptronClassifier(maxIter=10, layers=[5,3], blockSize=128, seed=123) model_stacking = mlp.fit(input_vector.select(['features', 'label'])) preditions_foo = model_stacking.transform(validation) predition = evaluator.evaluate(preditions_foo) 当应用fit(

浏览 2提问于2019-06-27得票数 1

2回答

如何构建一个RDD，其中每个元素等于前面输入元素的总和？

、

我在RDD集合中有一个数字列表。从这个列表中，我需要创建另一个RDD列表，其中每个元素等于它前面所有元素的总和。如何在Spark中构建这样的RDD？下面的Scala代码演示了我试图在Spark中实现的功能： object Test { def main(args: Array[String]) { val lst: List[Float] = List(1, 2, 3) val result = sum(List(), 0, lst) println(result) } def sum(acc: List[Float], runningSum: Fl

浏览 0提问于2015-01-27得票数 4

1回答

如何使用Spark在从全局临时视图创建的Dataframe中选择元素

、、、

我需要在全局临时视图中存储一个obect，然后使用Spark读取值。在从从全局temp视图创建的dataframe中选择时，我得到了一个错误。错误消息:由于阶段失败而中止作业:第8.0阶段中的任务15失败4次，最近一次失败:阶段8.0中丢失的任务15.3 (TID 220) (10.139.64.4执行器0)：org.apache.spark.api.python.PythonException： TypeError: StructType不能接受<class 'str'>类型的对象'conn_string‘> 这并不是由于任何特定的类属性，因为如果

浏览 3提问于2022-10-30得票数 0

2回答

当联合父rdd和子rdd在操作之前发生时会发生什么？

、、

假设我有一些rdd，血统是这样的： rdd0 -> rdd1 -> rdd2 -> rdd3 -> rdd4 当我执行rdd1.union(rdd2).union(rdd3).union(rdd4).collect()？时会发生什么spark会在计算rdd4时重新计算从rdd0到rdd3的转换吗？

浏览 5提问于2017-08-10得票数 0

回答已采纳

13回答

java.io.IOException:无法在Hadoop二进制文件中找到可执行的null\bin\winutils.exe。windows 7上的星火Eclipse

、、

我无法在安装在spark上的Scala IDE (Maven火花项目)中运行简单的Windows 7作业火花核心依赖已被添加。 val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() 错误： 16/02/26 18:29:33 INFO SparkContext: Created broadcast

浏览 0提问于2016-02-26得票数 111

回答已采纳

2回答

使用Spark Streaming从Cassandra读取

、、

当我使用spark streaming从Cassandra读取数据时，我遇到了一个问题。作为上面的链接，我使用 val rdd = ssc.cassandraTable("streaming_test", "key_value").select("key", "value").where("fu = ?", 3) 从cassandra中选择数据，但似乎spark streaming只有一次查询，但我希望它使用间隔10的senconds继续查询。我的代码如下所示，希望您的回复。谢谢! import org.a

浏览 2提问于2015-09-08得票数 10

回答已采纳

1回答

将数据中的一行解析为类时出错。星星之火

、、

我已经实现了这个代码： scala> import org.apache.spark._ scala> import org.apache.spark.rdd.RDD import org.apache.spark.rdd.RDD scala> import org.apache.spark.util.IntParam import org.apache.spark.util.IntParam scala> import org.apache.spark.graphx._ import org.apache.spark.graphx._ scala> im

浏览 1提问于2016-08-24得票数 0

回答已采纳

1回答

带字典的PySpark约简键

、、、、

为什么Spark强制从元组列表中构建RDD，以便在进行还原键转换的情况下？ reduce_rdd = sc.parallelize([{'k1': 1}, {'k2': 2}, {'k1': -2}, {'k3': 4}, {'k2': -5}, {'k1': 4}]) print(reduce_rdd.reduceByKey(lambda x, y: x + y).take(100)) 错误： for k, v in iterator: ValueError: need more than 1 v

浏览 0提问于2018-01-18得票数 1

1回答

在包含join的Sparkjob中超出了GC开销限制

、、

我正在写一份spark工作，根据学生日期过滤最新的学生记录。但当我尝试使用数十万条记录时，它工作得很好。但是，当我使用大量记录运行它时，我的sparkjob返回下面的错误。我猜这个错误是因为我从表中加载了所有数据并将int放入了RDD中。因为我的表包含大约420万条记录。如果是这样的话，有没有更好的方法来有效地加载这些数据并成功地继续我的操作？请任何人帮我解决这个问题 WARN TaskSetManager: Lost task 0.0 in stage 1.0 (TID 1, 10.10.10.10): java.lang.OutOfMemoryError: GC overhead li

浏览 22提问于2017-03-10得票数 1

3回答

以dict为全局变量的火花放电中的累加器

、、、

为了学习目的，我尝试将字典设置为累加器中的一个全局变量，add函数工作得很好，但是我运行代码并将字典放入map函数中，它总是返回空的。但是将list设置为全局变量的类似代码 class DictParam(AccumulatorParam): def zero(self, value = ""): return dict() def addInPlace(self, acc1, acc2): acc1.update(acc2) if __name__== "__main__": sc, sqlC

浏览 7提问于2017-06-19得票数 3

回答已采纳

1回答

在齐柏林飞艇中使用SparkSQL查询Hive表时，为什么会收到这个IO异常？

、、、、

我按照的第一部分创建了一个外部配置单元表，并将其指向特定的S3 Bucket。在Hue界面中，我可以在成功创建后浏览数据示例。如果我切换到齐柏林飞艇并运行以下命令：%sql show tables，我可以看到我的表列在default数据库旁边。现在，如果我实际尝试查询表，就会得到一个java.io.IOException: Not a file: s3://my-bucket/my-subdirectory错误。这个错误是有道理的，但是Hive会让你指定一个S3存储桶，而不是一个实际的S3文件，所以我不知道如何让两者都满意！请注意，此目录中只有一个文件，并且我没有尝试任何分区。该文件经过压

浏览 1提问于2017-06-03得票数 0

1回答

使用spark和scala将ListBuffer[List[Any]]值写入CSV

、、、

我现在重新提出了我的问题. 我在学习斯卡拉和火花。我知道直接从csv文件创建RDD，而不是创建DF并将其转换为RDD。但是，我正在尝试下面的组合。创建scala ListBuffer，Spark并将其转换为RDD： scala> import scala.collection.mutable.ListBuffer import scala.collection.mutable.ListBuffer scala> var src_policy_final = new ListBuffer[List[Any]] src_policy_final: scala.collection.

浏览 1提问于2018-11-28得票数 0

回答已采纳

1回答

类型错配，预期((双，双)=>Boolean，实际((双，双))=>Any

、

由于3个错误，我有以下两个函数没有编译： RegressionMetrics：Cannot resolve constructor _.nonEmpty：Type mismatch, expected ((Double,Double))=>Boolean, actual ((Double,Double))=>Any reduce(_+_)：Cannot resolve symbol +. 代码： import org.apache.spark.mllib.evaluation.RegressionMetrics //.. def get

浏览 2提问于2016-05-03得票数 0

1回答

在Apache Spark中并行训练Keras模型

、、、

\我正在尝试使用Apache Spark和Elephas并行训练多个Keras模型。下面是我要做的代码： train_data = pd.read_csv("csv_files/stats.csv") timesteps = 30 model_1, rdd1 = train_LSTM_model(spark_context = sc, dataframe= train_data, column_number=1 ,timesteps = 30) model_2, rdd2 = train_LSTM_model(spark_context = sc, dataframe =

浏览 29提问于2019-10-05得票数 0

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表、元组或字典，会怎么样呢？它们将只存储在我的驱动程序节点的内存中，对吗？如果我把它们转换成RDD，我还能用典型的Python函数做操作吗？如

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

使用Spark读取多个文本文件

、、、

我正在斯帕克工作，试图从一个目录中读取多个文本文件。我读过关于这个主题的多篇教程和问答课，它应该是简单明了的。尽管如此，我还是不能让它在我的系统上工作。我正在使用Python8.5、Java 8和Anaconda 3开发Windows 10。为了保持测试的简单性，我所要做的就是将文本文件加载到RDD中并打印出内容。以下是我对成功和不起作用的东西的实验： #THESE WORK #files = sc.textFile("C:/spark/HW1/data/199901.txt,C:/spark/HW1/data/200002.txt,C:/spark/HW1/data/20040

浏览 11提问于2022-09-10得票数 0

1回答

Apache Spark -迭代器和内存消耗

我是spark的新手，对迭代器的spark内存使用有疑问。当使用数据集的Foreach()或MapPartitions() (或者甚至直接调用RDD的迭代器()函数)时，spark是否需要首先将整个分区加载到内存中(假设分区在磁盘中)，或者当我们继续迭代时可以延迟加载数据(这意味着spark只能加载分区数据的一部分，执行任务并将中间结果保存到磁盘)

浏览 3提问于2019-04-26得票数 1

2回答

如何以高性能的方式将1个RDD分成6个部分？

、、

我构建了一个Spark RDD，其中该RDD的每个元素都是一个表示XML记录的JAXB Root元素。我想拆分这个RDD，以便从这个集合中产生6个RDD。本质上，这项工作只是将分层的XML结构转换为6组平面CSV记录。为了做到这一点，我目前六次忽略了相同的RDD 6。 xmlRdd.cache() val rddofTypeA = xmlRdd.map {iterate over XML Object and create Type A} rddOfTypeA.saveAsTextFile("s3://...") val rddofTypeB = xmlRdd.ma

浏览 0提问于2017-11-26得票数 2

2回答

是什么导致排序函数在spark中可串行化？

、

我得到的任务不能序列化为下面的代码。但是，如果直接传递函数，则不会出现任何错误。 abstract class MyAbstractClass[T, SortOrder](implicit ord: Ordering[SortOrder]) { def getSorterFunc(): (T) => SortOrder def sort(rdd: RDD[List[T]]) = { val sortFunc = getSorterFunc() rdd.map(x => x.sortBy(sortFunc)) } } object SampleObjec

浏览 7提问于2016-10-05得票数 1

回答已采纳

2回答

为什么这个Spark代码抛出java.io.NotSerializableException

、、、、

我想在RDD上的转换中访问伴生对象的方法。为什么以下选项不起作用： import org.apache.spark.rdd.RDD import spark.implicits._ import org.apache.spark.sql.{Encoder, Encoders} class Abc { def transform(x: RDD[Int]): RDD[Double] = { x.map(Abc.fn) } } object Abc { def fn(x: Int): Double = { x.toDouble } } implicit def abcEncoder

浏览 8提问于2017-05-07得票数 4