对具有可变对象的rdd执行联接操作_对箭头结构中的属性执行联接操作_具有键-对象对的不可变字典Python - 腾讯云开发者社区

scala、apache-spark

sessionIdList的类型为： scala> sessionIdList res19: org.apache.spark.rdd.RDD[String] = MappedRDD[17] at distinct at <console>:30 当我尝试运行下面的代码时： val x = sc.parallelize(List(1,2,3)) val cartesianComp = x.cartesian(x).map(x => (x)) val kDistanceNeighbourhood = sessionIdList.map(s => { ca

浏览 0提问于2014-05-22得票数 14

回答已采纳

3回答

从另一个RDD中减去一个RDD不能正常工作

scala、apache-spark、spark-graphx

我想从另一个RDD中减去一个RDD。我查看了文档，发现subtract可以做到这一点。实际上，当我测试subtract时，最终的RDD仍然是相同的，并且值没有被删除！还有其他功能可以做吗？还是我使用subtract不正确？下面是我使用的代码： val vertexRDD: org.apache.spark.rdd.RDD[(VertexId, Array[Int])] val clusters = vertexRDD.takeSample(false, 3) val clustersRDD: RDD[(VertexId, Array[Int])] = sc.parallelize(

浏览 3提问于2015-06-14得票数 4

回答已采纳

2回答

Scala中的Spark RDD可以是var而不是val吗？

scala、apache-spark、rdd

我是Spark/Scala的新手。Scala中的Spark RDD可以是var而不是val吗？我正在尝试编写一个for循环来在每次迭代中更新RDD。如果我将它定义为val，那么它将是不可变的，所以我想知道是否使用var RDD来代替。

浏览 3提问于2016-03-11得票数 0

1回答

我如何有效地将一个大的rdd加入到一个非常大的rdd中呢？

join、apache-spark、rdd

我有两个RDDs。一个RDD在5-1000万个条目之间，另一个RDD在5亿到7.5亿个条目之间。在某种程度上，我必须使用公共密钥连接这两个rdd。 val rddA = someData.rdd.map { x => (x.key, x); } // 10-million val rddB = someData.rdd.map { y => (y.key, y); } // 600-million var joinRDD = rddA.join(rddB); 当spark决定进行此连接时，它决定执行一个ShuffledHashJoin。这导致rddB中的许多项在网络上被洗牌。同样，

浏览 4提问于2015-07-13得票数 11

回答已采纳

2回答

在Spark Scala中合并两个RDDs

scala、apache-spark

我有两张RDDs。 rdd1 =(字符串，字符串) key1, value11 key2, value12 key3, value13 rdd2 =(字符串，字符串) key2, value22 key3, value23 key4, value24 我需要用来自rdd1和rdd2的合并行形成另一个RDD，输出应该如下所示： key2, value12 ; value22 key3, value13 ; value23 所以，基本上，它只是取rdd1和rdd2的键的交集，然后连接它们的值。**取值顺序为value(rdd1) + value(rdd2)，不能颠倒。

浏览 0提问于2015-07-28得票数 3

回答已采纳

2回答

如何在Scala中使用Spark删除重复项(更像基于多个属性的筛选器)？

scala、apache-spark、filter、duplicates、rdd

作为策略，我们不更新我们的文档，但是我们用更新的值重新创建。当我处理这些事件时，我只想保持更新的事件，所以我想根据多个值从我的RDD中筛选项目。例如，假设一个项目是： { "name": "Sample", "someId": "123", "createdAt": "2016-09-21T02:16:32+00:00" } 并在更新后： { "name": "Sample-Updated", "someId":

浏览 2提问于2016-09-21得票数 0

回答已采纳

2回答

Spark / Scala:将RDD传递给函数

scala、apache-spark、rdd

我很好奇在Spark中将RDD传递给函数到底是做什么的。 def my_func(x : RDD[String]) : RDD[String] = { do_something_here } 假设我们像上面那样定义一个函数。当我们调用该函数并将现有的RDDString对象作为输入参数传递时，此my_function是否会将此RDD作为函数参数进行“复制”？换句话说，它是按引用调用还是按值调用？

浏览 0提问于2015-06-25得票数 7

回答已采纳

2回答

替换RDD的某些元素

scala、apache-spark、rdd

我有一个文件，它包含三种类型的数据，比如A、B、C。我只想将这个RDD的类型A元素(称为RDD1)替换为基于某些condition.RDD1的其他RDD(称为RDD2)的元素，RDD2有一些共同的字符串。文件结构[RDDString] 1 A 2 2 B 12 13 4 2 C 67 29 2 A 5 RDD2 [RDDRow] 1 A 2 5 6 2 A 5 7 8 我正在过滤第一个RDD，并在其中附加一些字符串以创建RDD2。我知道RDDs是不可变的，但是因为map函数不需要讨论，我想知道是否有办法实现这一点。编辑：(考虑下面的评论) 样本输出RDDAny 1 A 2 5

浏览 4提问于2016-02-11得票数 0

回答已采纳

1回答

对具有可变对象的rdd执行联接操作

scala、apache-spark、rdd

我有一个问题，如果我有两对RDD： RDD1 = RDD[(1,1), (1,2)] RDD2 = RDD[(1, obj)] // obj is an mutable scala object RDD1.join(RDD2)操作应该得到：RDD[(1, (1,obj1)), (1, (2,obj2))] 问题是：obj1和obj2引用的是同一个对象吗？如果是，那么在这个加入过程中发生了什么？我曾经认为它们是从obj的序列化结果反序列化的两个对象，但今天我发现obj1上的操作可以反映在obj2中，我突然感到困惑。谢谢

浏览 3提问于2019-11-27得票数 0

2回答

使用两个RDDs apache

scala、apache-spark

我正在使用卡洛普，即火花塞连接卡桑德拉。我已经创建了两个RDDs，它看起来像 class A val persistLevel = org.apache.spark.storage.StorageLevel.MEMORY_AND_DISK val cas1 = CasBuilder.cql3.withColumnFamily("cassandra_keyspace", "cassandra_coulmn_family 1") val sc1 = new SparkContext("local", "name it any t

浏览 4提问于2014-06-12得票数 1

回答已采纳

1回答

我有两个rdd如何放进一个(火花，scala)

scala、apache-spark、rdd

我有两个rdd。第一个有x坐标(一列)，第二个有y坐标(一列)。我希望结果是一个具有(x，y)格式的列的rdd。有什么解决办法吗？例如：第一个rdd有: 1,2,3 第二轮rdd : 4,5,6 结果：(1,4)，(2,5)，(3,6) 提前感谢

浏览 1提问于2017-12-09得票数 2

回答已采纳

1回答

如何测试某个值是否是RDD的键

scala、apache-spark

我对Spark和Scala非常陌生，我想测试一个值是否是RDD中的一个键。我掌握的数据如下： RDD数据:键->值 RDD :关键的->统计数据我想要做的是过滤数据中的所有键值对，其中的键位于stat中。我的总体想法是将RDD的键转换为一个集合，然后测试一个值是否属于这个集合？是否有更好的方法，以及如何使用Scala将RDD的键转换为一组？谢谢。

浏览 1提问于2015-01-12得票数 1

回答已采纳

1回答

在没有笛卡尔的星火和Scala的帮助下，RDD的Jaccard相似性？

scala、apache-spark、cartesian-product

我正在研究一对RDDs。我的目标是计算rdd值集之间的jaccard相似度，并根据我的RDD的jaccard相似阈值value.Structure对它们进行聚类： val a= [Key,Set(String)] //Pair RDD For example:- India,[Country,Place,....] USA,[Country,State,..] Berlin,[City,Popluatedplace,..] 在找到jaccard相似性之后，我会将相似的实体聚到一个集群中。在上面的例子中，印度和美国将根据某个阈值被聚成一个集群，而柏林将在另一个集群中。

浏览 1提问于2018-03-09得票数 2

回答已采纳

1回答

在星火中，RDD和Dataframe有什么区别？

apache-spark、pyspark、pyspark-sql

嗨，我是相对较新的阿帕奇火花。我想了解RDD、dataframe和数据集之间的区别。例如，我从s3桶中提取数据。 df=spark.read.parquet("s3://output/unattributedunattributed*") 在这种情况下，当我从s3加载数据时，什么是RDD？另外，由于rdd是不可变的，所以我可以更改df的值，这样df就不能是RDD。感谢有人能解释RDD、dataframe和数据集之间的区别。

浏览 1提问于2019-08-20得票数 2

1回答

何时在星火中使用RDD和DataFrame

dataframe、apache-spark、rdd

根据我所读到的，RDD不能像DataFrame那样利用Spark对结构化数据的优化优势，在处理非结构化数据源时我们应该使用RDD，同时处理数据库中的表时我们应该使用DataFrame吗？像json这样的半结构化数据怎么样？我们应该采用哪种抽象？RDD还是DataFrame？

浏览 1提问于2020-06-07得票数 1

回答已采纳

1回答

火花执行器由于GC开销限制而丢失，即使使用20个执行器每个使用25 GC。

apache-spark、apache-spark-sql

这个GC开销限制错误让我发疯了。我有20个执行者使用25 GB，我完全不明白它怎么能抛出GC开销，我也不是那个大数据集。一旦这个GC错误发生在执行器中，它就会丢失，其他执行程序也会慢慢丢失，因为IOException、Rpc客户端断开、洗牌找不到等等。我是星火的新手。 WARN scheduler.TaskSetManager: Lost task 7.0 in stage 363.0 (TID 3373, myhost.com): java.lang.OutOfMemoryError: GC overhead limit exceeded at org.apache

浏览 0提问于2015-08-18得票数 1

回答已采纳

2回答

如何使用scala在spark中合并两个不同的rdd

scala、apache-spark、rdd

我正在尝试将两个rdds合并为一个。如果我的rdd1包含2个记录，每个记录包含2个元素，那么这两个记录都是字符串，例如: key_A:value_A和Key_B:value_B rdd2还包含2个元素的1条记录，这两个元素都是字符串key_C:value_c 我最终的rdd应该是这样的: key_A :value_A，Key_B :value_B，key_C :value_c 我们可以使用rdd的联合方法，但它不起作用。请在使用2个rdd的并集时给予帮助，2个不同rdd的行应包含相同的no个元素，或者它们的大小可以不同......？

浏览 0提问于2016-09-12得票数 0

1回答

缓存RDDs的范围

scala、apache-spark

我想知道缓存的RDD的范围是什么。例如： // Cache an RDD. rdd.cache // Pass the RDD to a method of another class. otherClass.calculate(rdd) // This method performs various actions. // Pass the RDD to a method of the same class. calculate(rdd) // This method also performs some actions. // Perform an action in

浏览 0提问于2015-10-02得票数 1

回答已采纳

2回答

当创建具有相同密钥集的两个不同的火花对RDD时，火花是否会将相同密钥的分区分配到同一台机器上？

scala、join、apache-spark、rdd

我想在两个非常大的键值对RDD之间做一个连接操作。这两个RDD的键来自同一组。为了减少数据混乱，我希望我可以添加一个预分发阶段，以便在同一台机器上分配具有相同密钥的分区。希望这能减少一些洗牌时间。我想知道火花是否足够聪明来为我做到这一点，还是我必须自己去实现这个逻辑？我知道当我加入两个RDD，一个使用的预处理。Spark非常聪明，可以使用这些信息，并且只对其他RDD进行洗牌。但我不知道如果同时在两个RDD上使用partitionBy，然后执行连接，会发生什么情况。

浏览 3提问于2015-12-19得票数 5

回答已采纳

1回答

在map函数中创建辅助RDDs

java、apache-spark

我是个新手。我的问题如下。我已经有了一个包含数据的pairRDD。现在，我需要对它应用一个map转换，这样我就可以得到一个具有新值的新RDD，该值依赖于map函数内部的一些内部转换，如下所示。(伪代码) JavaPairRDD<Long,Long> originalRDD = .... //the one i load from the dataset JavaPairRDD<Long,Long> anotherrdd = ......; //the source of tuples JavaPairRDD<Tuple2<Long, Long>, Lo

浏览 0提问于2018-09-20得票数 0

4回答

修改星火中对象的RDD (scala)

scala、apache-spark、rdd

我有： val rdd1: RDD[myClass] 它已经初始化，我在调试所有成员时检查了它们的默认值。如果我做了 rdd1.foreach(x=>x.modifier()) 其中修饰符是myClass的一个成员函数，它修改了一些成员变量在执行此操作之后，如果我检查RDD中的值，它们没有被修改。有人能解释一下这里发生了什么吗？是否有可能确保在RDD中修改了这些值？编辑： class myClass(var id:String,var sessions: Buffer[Long],var avgsession: Long) { def calcAvg(){ //

浏览 4提问于2015-06-18得票数 3

回答已采纳

1回答

对RDD火花的质疑

hadoop、apache-spark

我想了解下面的事情关于RDD的火花概念。 RDD仅仅是从HDFS存储中复制某个节点的RAM中的数据以加快执行的概念吗？如果一个文件在集群中被分割，那么对于单个flie，RDD会从其他节点获取所有需要的数据？如果第二点是正确的，那么它如何决定它必须执行哪个节点的JVM？数据局部性是如何在这里工作的？

浏览 3提问于2016-10-31得票数 0

1回答

如何将RDD复制成多个RDD？

apache-spark、cassandra、rdd

是否有可能将一个RDD复制成两个或多个RDD？我想使用卡桑德拉火花驱动程序，并将RDD保存到Cassandra表中，此外，还要继续进行更多的计算(并最终将结果保存给Cassandra )。

浏览 2提问于2015-01-19得票数 7

回答已采纳

1回答

批间火花流数据共享

apache-spark、spark-streaming

火花流在微批量处理数据。每个间隔数据使用RDDs并行处理，每个间隔之间没有任何数据共享。但是我的用例需要在间隔之间共享数据。考虑示例，它生成在该间隔中接收的所有单词的计数。我将如何产生以下字数？单词"hadoop“和”火花“与前一个间隔计数的相对计数正常的单词对所有其他单词都很重要。注意: UpdateStateByKey执行状态处理，但这将适用于每个记录，而不是特定的记录。因此，UpdateStateByKey不适合这个需求。更新：请考虑以下示例间隔-1 输入： Sample Input with Hadoop and Spark on Hado

浏览 2提问于2015-05-05得票数 8

回答已采纳

2回答

通过迭代另一个大型RDD - pySpark来过滤大RDD

apache-spark、pyspark、rdd

我有一个很大的RDD，叫做RDD1，大约是在初始过滤器之后的3亿行。我想要做的是从RDD1中获取ids，并在另一个大型数据集中找到它的所有其他实例，称为RDD2，即大约30亿行。RDD2是通过查询存储在Hive和RDD1中的拼花表来创建的。来自RDD1的唯一ids的数量大约为1,000万个元素。我的方法是当前收集is并广播它们，然后过滤RDD2。我的问题是-有没有更有效的方法来做到这一点？或者这是最好的做法？我有以下密码- hiveContext = HiveContext(sc) RDD1 = hiveContext("select * from table_1") R

浏览 2提问于2016-01-22得票数 2

回答已采纳

1回答

rdd与火花放电中的数据

python、apache-spark、pyspark

我刚刚读到，dataframe有类似于二维数组的存储，其中rdd对存储没有任何这样的约束。因此，可以使用dataframes来更好地运行查询。这是否意味着在相同的输入数据集上创建数据same比创建rdd占用更多的内存？另外，如果我将rdd定义为rdd1，当我使用toDf方法将rdd1转换为数据帧时，是否在节点上消耗了更多的内存？类似地，如果我有一个dataframe并使用df.rdd方法将其转换为rdd，那么我是否在释放节点上的一些空间？

浏览 4提问于2022-02-25得票数 -1

1回答

按键求RDD的交集

python、apache-spark、pyspark、rdd

我有两个RDD，一个很大，另一个要小得多。我想在大RDD中找到所有独特的元组，其中包含来自小RDD的键。大的RDD太大了，我不得不避免一次完全的洗牌。小的RDD也足够大，以至于我不能播放它。我也许能播放它的钥匙。也有重复的元组，我只关心不同的元组。例如 large_rdd = sc.parallelize([('abcdefghij'[i%10], i) for i in range(100)] * 5) small_rdd = sc.parallelize([('zab'[i%3], i) for i in range(10)])

浏览 1提问于2015-12-07得票数 2

2回答

Spark :在创建RDD时，如何在executors上管理内存？

python、apache-spark、pyspark

我的Spark应用程序当前由于YARN试图超过内存限制而导致执行器死亡。在我购买的文档或O‘’Reilly书中，我似乎找不到创建RDD是如何在executors上分配内存的。有人能告诉我下面的代码片段中发生了什么吗？ N = 10 array = numpy.random.random_float(N) # Is the array actually partitioned and serialized out when this is executed? # Or when an action using this rdd is called? At this point, # I wo

浏览 2提问于2016-02-03得票数 0

3回答

在java中加入spark RDD时需要帮助

java、apache-spark、spark-cassandra-connector

需要在spark中执行以下join操作 JavaPairRDD<String, Tuple2<Optional<MarkToMarketPNL>, Optional<MarkToMarketPNL>>> finalMTMPNLRDD = openMTMPNL.fullOuterJoin(closedMTMPNL); 要执行此操作，我需要两个JavaPairRDD，即closedMTMPNL和openMTMPNL。OpenMTM和closeMTM运行得很好，但是两个RDD上的keyBy在运行时都出现了错误。 JavaPairRDD<Strin

浏览 0提问于2015-06-28得票数 1

1回答

RDD JoinWithCassandraTable联接列

apache-spark、cassandra、apache-spark-sql

RDD1.join RDD1.joinWithCassandraTable("keyspace"，"Tableabc"，SomeColumns("lines")，SomeColumns("col1"，"col2"，"col3")) 上面是在Cassandra中连接RDD1和表的语法。其中，col1、col2、col3是用于与RDD1连接的列我有一个要求如下。Tableabc有一个名为"lines“的列，其数据类型为"list”。lines列有4列，如下所示。线路：{cola: 2

浏览 0提问于2016-06-16得票数 0

1回答

并行处理DStream中的RDDs

java、scala、apache-spark、spark-streaming

我看到了以下代码，它处理星火流中的消息： val listRDD = ssc.socketTextStream(host, port) listRDD.foreachRDD(rdd => { rdd.foreachPartition(partition => { // Should I start a separate thread for each RDD and/or Partition? partition.foreach(message => { Processor.processMessage(message) }) })

浏览 1提问于2015-11-04得票数 0

回答已采纳

1回答

如何在星火中加入两个不同长度的RDDs？

scala、apache-spark

我有两个RDDs。第一个RDD是原始的RDD，第二个是我从原始RDD中筛选出来的RDD，并对其进行了一些处理。执行完流程后，我想加入它们。原始的RDD如下所示： (1,5) (2,60) (3,7) (4,1) (5,1) ... (10,8) 过滤和操作的RDD是： (4,3) (5,10) (6,6) (7,9) 我该怎么加入他们？？当我使用完全连接或其他连接方法时，它会产生错误。编辑的我写的代码就像你说的那样： original_RDD=original_RDD.fullOuterJoin(new_RDD).foreach { case (joinKey, (oldO

浏览 1提问于2020-03-07得票数 0

回答已采纳

1回答

如何在星火中计算内部连接的分区数？

apache-spark、bigdata、aws-glue

我们有两张数据。df_A和df_B df_A.rdd.getPartitionsNumber() # => 9 df_B.rdd.getPartitionsNumber() # => 160 df_A.createOrReplaceTempView('table_A') df_B.createOrReplaceTempView('table_B') 创建之后，通过SparkSQL加入了dataframe， """)df_C.rdd.getPartitionsNumber() df_C=spark.sql(“”从table_A

浏览 1提问于2021-05-23得票数 2

2回答

如何过滤星火中卡桑德拉的空数据？

apache-spark、cassandra

我想过滤从Cassandra中选择的Null值。以下是我的疑问： scala> var rdd = sc.cassandraTable("keyspace", "table").select("month", "timetag", "name").where("month = ?", "201704") scala> var data = rdd.filter(_.getString("name") != null) 如果我使用getString(&#

浏览 4提问于2017-07-20得票数 0

1回答

星火DStream排序取N个元素

apache-spark、spark-streaming

我使用火花流从kafka集群读取数据。我想排序一个DStream对和得到顶N单独。到目前为止，我已经使用 val result = ds.reduceByKeyAndWindow((x: Double, y: Double) => x + y, Seconds(windowInterval), Seconds(batchInterval)) result.transform(rdd => rdd.sortBy(_._2, false)) result.print 我的问题是如何从dstream中只获取最上面的N元素？转换操作由rd

浏览 4提问于2015-10-07得票数 4

1回答

如何在RDD中分配固定的UUID值

scala、apache-spark、uuid、rdd

在spark程序中，我首先初始化了2个RDD，然后在while循环中使用了第二个RDD，如下所示： var nodes = sc.parallelize(ArrayBuffer(1, 2, 3, 4, 5)) var node_GroupIDs = nodes.map(x=>(x, UUID.randomUUID())) var i = 0 while (i < 10) { node_GroupIDs.foreach(println) i += 1 } 我发现在不同的迭代中，对于某个节点ID，对应的组ID具有不同的值。似乎在每次迭代中，RDD都被再次初始化。这种情

浏览 0提问于2016-03-25得票数 3

1回答

CoGroupedRDD是做什么的？

scala、apache-spark、rdd

有人能用简单的语言解释一下CoGroupedRDD是做什么的吗？下面的代码在两个RDDs之间进行连接。 val schema = "some_schema" val RDD = {sc.cassandraTable[(String, String, Int, Int, Int, Int)](schema, "Event_table").select("column1" as "_1", "column2" as "_2", "column3" as "_3",

浏览 11提问于2017-03-01得票数 3

回答已采纳

5回答

火花缓存与广播

caching、apache-spark

看起来，广播方法在我的集群中创建了RDD的分布式副本。另一方面，cache()方法的执行只是在内存中加载数据。但是我不明白缓存的RDD是如何分布在集群中的。你能告诉我在什么情况下我应该使用rdd.cache()和rdd.broadcast()方法吗？

浏览 8提问于2016-06-27得票数 27

回答已采纳

1回答

星火比较器上序列化对象的比较

hadoop、serialization、apache-spark

我试图了解String (java.lang.String)和Text (org.apache.hadoop.io.Text)类型的序列化对象是如何在Spark上进行比较的。这两种类型都应该用作RDD元素的键。因此，我想知道在比较这些类型的对象的方式上是否存在差异。在下列情况下，这可能与此相关：支持将RDD保存为序列化对象并加载它的RDD.saveAsObjectFile和SparkContext.objectFile。 StorageLevel.MEMORY_AND_DISK_SER作为调用RDD.persist()时提供的存储级别。 Hadoop提供了RawCompara

浏览 1提问于2015-12-21得票数 2

回答已采纳

1回答

如何在星火(Scala)中合并两个RDDs？

scala、apache-spark

因此，假设我有以下两个RDDS：(这只是每个RDD的前几行) RDD1： Time Temp 2014-08-12 13:20:00 22 2014-08-12 13:21:00 24 2014-08-12 13:24:00 26 2014-08-12 13:26:00 27 2014-08-12 13:28:00 22 RDD2： Time Age 2014-08-12 13:20:00 45 2014-08-12 13:21:00 45 2014-08-12 13:24:0

浏览 3提问于2017-03-31得票数 2

回答已采纳

1回答

星星之火: GroupByKey和排序

scala、sorting、apache-spark、combiners

我有一个具有以下结构的RDD： val rdd = RDD[ (category: String, product: String, score: Double) ] 我的目标是根据类别对数据进行group，然后对每个类别进行sort w.r.t。Tuple 2 (product, score)评分。就目前而言，我的代码是： val result = rdd.groupByKey.mapValues(v => v.toList.sortBy(-_._2)) 对于我所拥有的数据来说，这是非常昂贵的操作。我希望使用替代方法来提高性能。

浏览 3提问于2016-04-29得票数 2

回答已采纳

3回答

在Spark的RDD中更新价值的有效方法是什么？

scala、apache-spark

我正在用Scala和Spark编写一个与图形相关的程序。数据集有400万个节点和400万条边(您可以将其视为一棵树)，但是对于每次( Iteration)，我只编辑其中的一部分，即以给定节点为根的子树，以及该给定节点和根之间的路径中的节点。 Iteration具有依赖性，这意味着i+1 Iteration需要来自i的结果。因此，我需要为下一步存储每个Iteration的结果。我试图找到一种有效的方法来更新RDD，但到目前为止还没有任何线索。我发现PairRDD有一个lookup函数，它可以将计算时间从O(N)减少到O(M)，N表示RDD中对象的总数，M表示每个分区中元素的数量。所以我在想，

浏览 0提问于2014-06-10得票数 10

回答已采纳

2回答

为什么union()是一个狭窄的转换，而相交()是火花中的一个广泛的转换？

scala、apache-spark、pyspark、rdd、transformation

我正试图从中理解星火中的基本概念。据我所知，窄转换产生的子RDD是从单个父RDD(可能是同一个RDD的多个分区)转换而来的。但是，对于要执行的转换，联合和交叉都需要两个或多个RDD。理论上谁能澄清这件事吗？

浏览 3提问于2022-01-09得票数 1

回答已采纳

1回答

如何结合两个RDD与不同的键在爪哇火花？

java、apache-spark

假设我有一个Tuple2的RDD，如下所示： <session1_w1, <0.2, 2>>, <session1_w2, <1.3, 4>>, <session1_w3, <0.4, 3>>, <session2_w1, <0.5, 2>>, <session2_w2, <2.3, 6>> 我需要将其映射到以下RDD，以便最后一个字段是元组的最后一个字段的总和，其部分键值相同，例如session1。 2 + 4 + 3 => 9 2 + 6 =>

浏览 3提问于2015-11-11得票数 1

回答已采纳

1回答

是否有可能在不使用火花中的累加器的情况下创建一个可变的共享数据结构？

apache-spark、spark-streaming

我是新来的火花，有些事情对我来说很不清楚。但基础知识表明，只有累加器是可变变量，可以跨执行程序进行更新，其值可以由驱动程序检索。在代码中初始化的任何其他变量，这些变量都是跨执行器更新的，更新后的值不会被中继回驱动程序，因为它们是独立JVM的。我正在研究一个项目的一部分，该项目在数据结构中存储来自动物园管理员的偏移量，以供将来使用。由于偏移是在执行程序上获得的，所以几乎不可能有一个共享的数据结构，它将每个分区的偏移更新回驱动程序，直到我在中看到这段代码。 AtomicReference<OffsetRange[]> offsetRanges = new AtomicReferenc

浏览 1提问于2019-01-09得票数 0

回答已采纳

1回答

在可序列化类中放置一个RDD会不好吗？

scala、apache-spark、rdd

例如，根据，当您在RDD.map中使用一个对象时，Spark将首先序列化整个ojbect。现在，让我们说，我有一个RDD定义为可序列化类的成员。星火会为RDD做些什么，它是否也会尝试序列化它。如果是这样的话，是怎么做的？下面是一个示例代码。 class SomeClass extends Serializable { var a: String var b: Int var rdd: RDD[...] .... } objectOfSomeClass = new SomeClass(...) ... someRDD.map(x => someFunc(objectOfSom

浏览 0提问于2019-07-29得票数 0

回答已采纳

3回答

如何连接两个RDD: value不是org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]的成员

scala、apache-spark、importerror

我正在使用Spark2.1.0和Scala2.10.6 当我尝试这样做的时候： val x = (avroRow1).join(flattened) 我知道错误： value join is not a member of org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] 我为什么要收到这条消息？我有下列进口报表： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ impor

浏览 0提问于2017-07-10得票数 0

2回答

在火花中加入两个RDD

scala、apache-spark

我有两个rdd --一个rdd --另一个RDD --另一个RDD--键上的两个RDD--我添加了虚拟值0，还有其他使用join的有效方法吗？ val lines = sc.textFile("ml-100k/u.data") val movienamesfile = sc.textFile("Cml-100k/u.item") val moviesid = lines.map(x => x.split("\t")).map(x => (x(1),0)) val test = moviesid.map(x => x._1) v

浏览 4提问于2015-10-24得票数 3

回答已采纳

1回答