Spark RDD:从其他RDD查找

Spark RDD（Resilient Distributed Datasets）是Spark中最基本的数据结构，它代表一个不可变、可分区、可并行计算的数据集合。RDD可以从内存中的数据集、Hadoop文件系统（HDFS）中的数据、本地文件系统中的数据等多种数据源创建。

在Spark中，RDD是一个抽象的概念，它可以分布在集群的多个节点上进行并行计算。RDD的主要特点包括：

弹性（Resilient）：RDD具有容错性，可以自动恢复数据丢失或节点故障导致的计算失败。通过RDD的血统（lineage）信息，Spark可以重新计算丢失的分区数据。
分区（Distributed）：RDD将数据集划分为多个分区，每个分区可以在集群的不同节点上进行并行计算。分区是Spark进行并行计算的基本单位。
数据集（Dataset）：RDD是一个分布式的数据集合，可以包含各种类型的数据，如文本、数字、对象等。
不可变（Immutable）：RDD的数据是不可变的，即RDD的数据不能被修改。如果需要对数据进行转换或操作，需要创建一个新的RDD。

对于从其他RDD查找数据，可以使用RDD的转换操作和行动操作来实现。以下是一些常用的操作：

转换操作：
- filter(func)：根据给定的条件过滤RDD中的元素。
- map(func)：对RDD中的每个元素应用给定的函数，返回一个新的RDD。
- flatMap(func)：对RDD中的每个元素应用给定的函数，并将结果展平为一个新的RDD。
- distinct()：去除RDD中的重复元素，返回一个新的RDD。
- union(otherRDD)：将两个RDD合并为一个新的RDD。

行动操作：
- collect()：将RDD中的所有元素以数组的形式返回到驱动程序中。
- count()：返回RDD中的元素个数。
- first()：返回RDD中的第一个元素。
- take(n)：返回RDD中的前n个元素。
- reduce(func)：使用给定的函数对RDD中的元素进行聚合操作。

对于Spark RDD的更详细信息和使用示例，可以参考腾讯云的产品文档：Spark RDD 产品文档。

需要注意的是，以上答案仅涵盖了Spark RDD的基本概念和常用操作，对于更深入的技术细节和高级应用场景，还需要进一步学习和实践。

页面内容是否对你有帮助？

有帮助

没帮助

星火是否在内部节点间分发数据？

apache-spark、pyspark、apache-spark-sql

我正在尝试使用Spark处理集群上的csv文件。我想了解是否需要显式读取每个工作节点上的文件来并行处理，还是驱动节点读取文件并在集群中分发数据以便内部处理？(我正在使用Spark2.3.2和Python) 我知道RDD可以使用SparkContext.parallelize()并行化，但是在DataFrames?的情况下会怎样呢？ if __name__=="__main__": spark=SparkSession.builder.appName('myApp').getOrCreate() df=spark.read.csv('d

浏览 0提问于2019-04-03得票数 5

2回答

为什么打印内部没有反映元素的顺序

scala、apache-spark

也许我遗漏了一些东西，但我希望数据会根据键进行排序。 scala> val x=sc.parallelize(Array( "cat", "ant", "1")) x: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[160] at parallelize at <console>:22 scala> val xxx=x.map(v=> (v,v.length)) xxx: org.apache.spark.rdd.RDD[(String, Int)

浏览 2提问于2016-01-03得票数 3

回答已采纳

3回答

在Spark的RDD中更新价值的有效方法是什么？

scala、apache-spark

我正在用Scala和Spark编写一个与图形相关的程序。数据集有400万个节点和400万条边(您可以将其视为一棵树)，但是对于每次( Iteration)，我只编辑其中的一部分，即以给定节点为根的子树，以及该给定节点和根之间的路径中的节点。 Iteration具有依赖性，这意味着i+1 Iteration需要来自i的结果。因此，我需要为下一步存储每个Iteration的结果。我试图找到一种有效的方法来更新RDD，但到目前为止还没有任何线索。我发现PairRDD有一个lookup函数，它可以将计算时间从O(N)减少到O(M)，N表示RDD中对象的总数，M表示每个分区中元素的数量。所以我在想，

浏览 0提问于2014-06-10得票数 10

回答已采纳

3回答

作为整体在rdd上执行的任何函数

apache-spark

我是spark的新手。我需要一个功能，将做一个RDD作为一个整体的工作。并不是在RDD上的每个元素上都有map()。示例：JavaRDD<String> str= sc.parallelize(list); str.map(func);现在，我希望对str作为整体执行函数，而不是对str的每个元素执行。有没有什么能帮到我的。

浏览 2提问于2017-05-16得票数 0

10回答

什么是spark中的RDD

scala、hadoop、apache-spark、rdd

定义是： RDD是不可变的分布式对象集合。我不太明白这是什么意思。它与存储在硬盘上的数据(分区对象)一样吗?如果是这样，那么为什么RDD可以有用户定义的类(如java、scala或python)？从这个链接：它提到：用户以两种方式创建RDDs :通过加载外部数据集，或者通过在其驱动程序中分发对象集合(例如，列表或集合我对RDD的理解以及与spark和hadoop的关系真的很困惑。有人能帮帮忙吗。

浏览 91提问于2015-12-23得票数 46

回答已采纳

2回答

在Spark中对可变集合建模

scala、apache-spark

我们现有的应用程序在启动时将大约一千万行从数据库加载到对象集合中。该集合存储在GigaSpaces缓存中。当应用程序接收到新消息时，将检查缓存以查看该消息的条目是否已经存在。如果不是，则根据消息中的数据将新实体添加到缓存中。(同时，新实体被持久化到数据库中)。我们正在研究使用Spark和Scala重新设计应用程序的可行性和附加值。问题是，在Spark中建模的正确方式是什么。我的第一个想法是从数据库加载到Spark RDD中。查找现有条目显然很简单。但是，因为RDD是不可变的，所以向缓存添加新条目需要进行转换。考虑到大量的数据集，我的假设是这将不会有很好的表现。另一个想法是将缓存创建为一

浏览 2提问于2016-01-25得票数 2

1回答

如何测试某个值是否是RDD的键

scala、apache-spark

我对Spark和Scala非常陌生，我想测试一个值是否是RDD中的一个键。我掌握的数据如下： RDD数据:键->值 RDD :关键的->统计数据我想要做的是过滤数据中的所有键值对，其中的键位于stat中。我的总体想法是将RDD的键转换为一个集合，然后测试一个值是否属于这个集合？是否有更好的方法，以及如何使用Scala将RDD的键转换为一组？谢谢。

浏览 1提问于2015-01-12得票数 1

回答已采纳

1回答

在没有笛卡尔的星火和Scala的帮助下，RDD的Jaccard相似性？

scala、apache-spark、cartesian-product

我正在研究一对RDDs。我的目标是计算rdd值集之间的jaccard相似度，并根据我的RDD的jaccard相似阈值value.Structure对它们进行聚类： val a= [Key,Set(String)] //Pair RDD For example:- India,[Country,Place,....] USA,[Country,State,..] Berlin,[City,Popluatedplace,..] 在找到jaccard相似性之后，我会将相似的实体聚到一个集群中。在上面的例子中，印度和美国将根据某个阈值被聚成一个集群，而柏林将在另一个集群中。

浏览 1提问于2018-03-09得票数 2

回答已采纳

2回答

如何在PySpark中广播RDD？

python-3.x、apache-spark、pyspark

可以用Python广播RDD吗？我遵循的书“高级分析与火花:模式学习从数据的规模”和第三章，一个RDD需要广播。我正在尝试使用Python而不是Scala来学习这些示例。无论如何，即使使用这个简单的示例，我也有一个错误： my_list = ["a", "d", "c", "b"] my_list_rdd = sc.parallelize(my_list) sc.broadcast(my_list_rdd) 错误是： "It appears that you are attempting to broadcast an

浏览 3提问于2017-05-27得票数 3

回答已采纳

2回答

触发本地rdd写入到本地Cassandra DB

apache-spark、cassandra、spark-cassandra-connector、dse

我有一个DSE集群，集群中的每个节点都在运行spark和Cassandra。当我从Cassandra加载数据到spark rdd并在Rdd上执行一些操作时，我知道数据将分布到多个节点中。在我的例子中，我想把这些rdds从每个节点直接写到它的本地Cassandra dB表中，有没有办法做到这一点。如果我执行普通的rdd收集，来自spark节点的所有数据将被合并，并返回到带有驱动程序的节点。我不希望发生这种情况，因为从节点返回到驱动程序节点的数据可能需要很长时间，我希望数据直接保存到本地节点，以避免数据跨spark节点移动。

浏览 3提问于2020-10-20得票数 1

1回答

火花如何将数据加载到内存中

scala、apache-spark

我在火花执行过程中完全混乱。我参考过可能的文章和教程，没有人在详细讨论。我可能误解了火花。请纠正我。我的40 my文件分布在10个节点集群的4个节点(每个节点10 my)上。当我在代码中说spark.read.textFile("test.txt")时，它会将所有4个节点的数据(40 my )加载到驱动程序(主节点)中吗？否则，这个RDD将分别加载到所有4个节点中。在这种情况下，每个节点RDD应该保存10 it的物理数据，是吗？整个RDD保存10 in数据，并为每个分区执行任务，即spark 2.0中的128 in。最后，将输出移到驱动程序(主节点)。我在某个地方读到

浏览 0提问于2019-04-03得票数 3

回答已采纳

2回答

Spark如何清除缓存的分区？

apache-spark

我以独立模式运行Spark2.0，我是集群中唯一一个提交作业的人。假设我有一个RDD，它有100个分区，每次只有10个分区可以在内存中使用。我们还假设分配的执行内存足够了，并且不会干扰存储内存。假设我迭代了RDD中的数据。 rdd.persist() // MEMORY_ONLY for (_ <- 0 until 10) { rdd.map(...).reduce(...) } rdd.unpersist() 对于每次迭代，前10个被持久化的分区会一直在内存中直到rdd.unpersist()

浏览 2提问于2017-03-07得票数 3

回答已采纳

1回答

apache spark中的Sortbykey

apache-spark、rdd

我正在与阿帕奇火花的一个项目。我很清楚spark中的转换和动作，但是突然间我把spark中的sortByKey()函数搞混了。这是如何工作的，它是考虑所有分区(即所有RDD)进行排序，还是在单个RDD中对数据进行排序？我的要求是对数据进行全局排序，就像我们在任何编程语言中进行排序一样(java中的Collections.sort())。考虑下面的代码：(xyz是经过一系列操作后的rdd ) JavaPairRDD<Float,Object>sorted = xyz.transformToPair(rdd->rdd.sortByKey()); 上面的语句给出的结果是全局排

浏览 0提问于2016-07-29得票数 1

1回答

对RDD火花的质疑

hadoop、apache-spark

我想了解下面的事情关于RDD的火花概念。 RDD仅仅是从HDFS存储中复制某个节点的RAM中的数据以加快执行的概念吗？如果一个文件在集群中被分割，那么对于单个flie，RDD会从其他节点获取所有需要的数据？如果第二点是正确的，那么它如何决定它必须执行哪个节点的JVM？数据局部性是如何在这里工作的？

浏览 3提问于2016-10-31得票数 0

1回答

星星之火-可以控制分区到节点的位置吗？

apache-spark

在Spark中，可以为RDD提供自定义的Partitioner。通常，生成的分区被随机分配给一组工作人员。例如，如果我们有20个分区和4个工作人员，每个工作人员将(大约)得到5个分区。但是，将分区放置到工人(节点)似乎是随机的，如下表所示。 trial 1 trial 2 worker 1: [10-14] [15-19] worker 2: [5-9] [5-9] worker 3: [0-4] [10-14] worker 4: [15-19] [0-4] 对于单个RDD上的操作来说，这是很好的，但是当您使用跨越多个RDD的

浏览 1提问于2017-06-07得票数 3

1回答

为什么RDD.foreach在"SparkException:这个RDD缺少一个SparkContext“中失败了？

scala、apache-spark、rdd

我有一个数据集(作为RDD)，我使用不同的filter操作符将其划分为4个RDD。 val RSet = datasetRdd. flatMap(x => RSetForAttr(x, alLevel, hieDict)). map(x => (x, 1)). reduceByKey((x, y) => x + y) val Rp:RDD[(String, Int)] = RSet.filter(x => x._1.split(",")(0).equals("Rp")) val Rc:RDD[(String, In

浏览 1提问于2017-05-20得票数 2

2回答

相当于Apache中的getLines

scala、apache-spark

我有一个Scala程序，可以在一台计算机上正常工作。但是，我想让它在多个节点上工作。程序的开始如下所示： val filename = Source.fromFile("file://...") val lines = filename.getLines val linesArray = lines.map(x => x.split(" ").slice(0, 3)) val mapAsStrings = linesArray.toList.groupBy(_(0)).mapValues(x => x.map(_.tail)) val

浏览 1提问于2014-12-10得票数 5

回答已采纳

20回答

火花-重新分区()与coalesce()

apache-spark、distributed-computing、rdd

根据学习火花请记住，重新分区您的数据是一个相当昂贵的操作。Spark还有一个名为repartition()的优化版本coalesce()，它允许避免数据移动，但前提是要减少RDD分区的数量。我发现的一个不同之处是，使用repartition()，分区数量可以增加/减少，而使用coalesce()，分区数只能减少。如果分区分布在多台机器上，并且运行coalesce()，那么如何避免数据移动？

浏览 6提问于2015-07-24得票数 391

回答已采纳

3回答

为什么我可以使用SparkSQL显示()数据帧，但不能将其写入json并获得"java.lang.OutOfMemoryError“

python、apache-spark、pyspark、apache-spark-sql、spark-dataframe

我使用SparkSQL处理数据，并且我想将我的数据写入一个子文件。 ... step12.show() step12.repartition(10).coalesce(1).write.json('wasb://liu@cliubo.blob.core.windows.net/test_data_4') step12是我的数据帧，但是我收到一个错误，告诉我java.lang.OutOfMemoryError: Unable to acquire 65536 bytes of memory, got 0它没有意义，因为我可以显示这个数据帧。我使用Microsoft Azure中的

浏览 0提问于2017-04-17得票数 0

1回答

如何在多个节点之间划分Spark Dataframe，每个节点都有唯一的密钥

python、scala、apache-spark

我是Spark Dataframe的新手。我有一个很大的Dataframe，在Spark集群中有一个键列，有4个节点。对于每个键，我在Dataframe中有几条记录；因此，只要内存有容量，我希望在每个节点中都有具有相同键的记录。如果节点内存已满，则将剩余数据移至另一节点。你能指导我怎么做吗？我曾经研究过用partionBy编写pair RDD上刚刚使用的Spark自定义分区。它将每个唯一组合的数据写入不同的文件中。事实上，我不想使用partitionBy，因为它将结果写在不同的文件中。任何帮助都是非常感谢的。

浏览 17提问于2021-09-16得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark RDD:从其他RDD查找

相关·内容

星火是否在内部节点间分发数据？

为什么打印内部没有反映元素的顺序

在Spark的RDD中更新价值的有效方法是什么？

作为整体在rdd上执行的任何函数

什么是spark中的RDD

在Spark中对可变集合建模

如何测试某个值是否是RDD的键

在没有笛卡尔的星火和Scala的帮助下，RDD的Jaccard相似性？

如何在PySpark中广播RDD？

触发本地rdd写入到本地Cassandra DB

火花如何将数据加载到内存中

Spark如何清除缓存的分区？

apache spark中的Sortbykey

对RDD火花的质疑

星星之火-可以控制分区到节点的位置吗？

为什么RDD.foreach在"SparkException:这个RDD缺少一个SparkContext“中失败了？

相当于Apache中的getLines

火花-重新分区()与coalesce()

为什么我可以使用SparkSQL显示()数据帧，但不能将其写入json并获得"java.lang.OutOfMemoryError“

如何在多个节点之间划分Spark Dataframe，每个节点都有唯一的密钥

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐