在成对的RDDs上按密钥和组对rdd进行Spark streaming分组，并从每个组中选取最新的

文章/答案/技术大牛

发布

1回答

、、

spark和scala新手。尝试实现以下目标。我的消息如下(key，id，version，dataObject) message.isProcessedmessage.key, message.id, message.version, message) }我希望在每条消息上<e

浏览 25提问于2017-12-18得票数 0

回答已采纳

1回答

在星火中加入和合作

、

有迹象表明，Spark中的联接是使用/基于协组函数/基元/转换来实现的。因此，让我首先集中讨论cogroup -它返回一个结果，它是RDD，基本上由所有的代码分组RDD组成。以另一种方式说-对于每个编码分组RDD中的每个键，至少有一个来自于所述编码分组RDD<em

浏览 1提问于2015-04-15得票数 7

4回答

RDD和Pair RDD的区别和用例

我刚开始接触spark，并试图理解普通RDD和配对RDD之间的区别。使用成对RDD而不是普通RDD的用例有哪些？如果可能，我想通过一个例子来了解pair RDD的内部结构。谢谢

浏览 1提问于2016-05-06得票数 15

1回答

Rdd lambda函数与行和列之间的混淆

、、、、

我有一个火花RDD (完整的代码)，我有点困惑。385 | 1如果我有下面的lambda函数，为什么在reduceByKey中有x+y = 385+291？X和Y是否与RDD的不同列有关？还是我认为这意味着他们指的是

浏览 1提问于2019-10-20得票数 1

回答已采纳

1回答

Apache火花K-均值聚类-用于输入的RDD

、、

我试图在分组数据上运行Spark的k-意思聚类，但是当我试图对每个组进行聚类时，我会遇到各种各样的错误。输入RDD看起来类似于(userID:长，同弦:向量)，即： org.apache.spark.rdd.RDD[(Long, Seq[org.apache.spark.mllib.linalg.Vector我想为每个<

浏览 0提问于2014-11-04得票数 2

回答已采纳

1回答

Spark嵌套foreach

、、

":"1461768452"，"IP":"10.10.144.209"，"ID":"KA4aIkFB"，"DEVICE":"Tablet"，"HOST":"krxd.net“}按(id，device)对所有记录进行分组，并为每个组获取最新的时间戳。然后

浏览 6提问于2016-09-01得票数 2

回答已采纳

10回答

什么是spark中的RDD

、、、

定义是：用户以两种方式创建RDDs :通过加载外部数据集，或者通过在其驱动程序中分发对象集合(例如，列表或集合我对RDD的理解以及与spark和hadoop

浏览 91提问于2015-12-23得票数 46

回答已采纳

1回答

从理论上讲，Spark会丢失失败作业的数据吗？

、

因此，我们使用RDD并对一组数据执行flatMap。然后，我们使用map操作对每个元素进行转换。在一组固定的元素上，我们看到在每次运行时，如果一些执行器在map操作期间死亡，spark会旋转新的执

浏览 0提问于2018-09-25得票数 2

1回答

我如何有效地将一个大的rdd加入到一个非常大的rdd中呢？

、、

我有两个RDDs。一个RDD在5-1000万个条目之间，另一个RDD在5亿到7.5亿个条目之间。在某种程度上，我必须使用公共密钥连接这两个rdd。这导致rddB中的许多项在网络上被洗牌。同样，一些rddA也在网络上被洗牌。在这种情况下，rddA太“大”，不能用作广播变量，但似乎BroadcastHashJoin会更有效。更新7/14 我的性能问题似乎根植

浏览 4提问于2015-07-13得票数 11

回答已采纳

2回答

为什么预分割会因为减少洗牌而引发工作？

、、、、

许多教程提到，RDD的预分区将优化火花作业的数据洗牌。我感到困惑的是，对于我的理解，预分区也会导致洗牌，为什么在这里提前洗牌会对一些操作有好处？特别是spark，self将对一组转换进行优化。例如：国家= country.partitionBy(10).persist()收

浏览 3提问于2017-08-10得票数 1

回答已采纳

2回答

如何实现RDD的并行化？

、

要将文件读入内存，我使用以下命令：它的类型是：阅读Scala文档：“并行集合是通过在现有的Scala集合(序列对象)上调用SparkContext的parallelize方法创建的。”这似乎不适用于RD

浏览 0提问于2014-04-26得票数 6

回答已采纳

1回答

Spark RDD的分区号是否可以在不重新分区的情况下手动更改

、、

在Spark中，我有两个PairRDD(让我们称它们为A和B)，每个PairRDD由n个分区组成。我想根据它们的密钥加入这些RDDs。两个RDD都是一致分区的，也就是说，如果键x和y在RDD A中的相同分区中，它们也在RDD B中的相同分区

浏览 2提问于2015-08-31得票数 1

2回答

将自定义函数应用于星火数据访问组

、、、、

我有一个非常大的时间序列数据表，其中包含以下列：我计划在dataframe中使用spark，但我对如何对spark分组数据执行自定义

浏览 2提问于2016-09-20得票数 10

回答已采纳

1回答

星星之火:将键元组对连接到键列表值中。

、、、

我有许多这种类型的RDDs (假设4)：K，(v1，v2，..，vN)，我必须加入它们，所以我只需运行结果是K，((v1，v2，..基本上，我将得到一个嵌套的元组结构，每个联接操作都有一个。K, [ v1,

浏览 5提问于2015-11-23得票数 0

回答已采纳

1回答

如何分发地图(.)集群操作？

、、、、

我在Databricks 10.2、Spark3.2.0、Python3.8中运行一个分布式操作，它查询底层的Delta表。在查询、按列分组并收集每个组中的行之后，我需要对每个组的elemenet执行一个复杂的算法并保存结果。这个复杂的算法是用Python代码编写的，并通过rdd</e

浏览 3提问于2022-01-26得票数 0

1回答

rdd与火花放电中的数据

、、

我刚刚读到，dataframe有类似于二维数组的存储，其中rdd对存储没有任何这样的约束。另外，如果我将rdd定义为rdd1，当我使用toDf方法将rdd1转换为数据帧时，是否在节点上消耗了更多的内

浏览 4提问于2022-02-25得票数 -1

1回答

星火组和聚合仅几个最小的项目。

、

给定两组数据，每个数据具有一些id和值：val rdd1 = sc.parallelize(Seq(("a", 31),("b", 41),("c",", "val1") val df2 = spark.createDataFrame(rdd2).toDF("id2", "val2

浏览 2提问于2019-06-27得票数 1

回答已采纳

1回答

如何在星火中的groupby之后运行RDD操作？

、、

我有一大组数据要对其执行聚类。问题是，我不想对整个集合进行一次集群，而是对每个用户进行一次集群。本质上，我会先做一个groupby，然后运行KMeans。问题是，一旦您执行了groupby，任何映射都将在星火控制器上下文之外，因此任何创建RDDs的尝试都将失败。Spark的mllib中的KMeans库需要一个RDD (这样它就可以并行化)。我看到

浏览 4提问于2016-05-09得票数 1

回答已采纳

4回答

星星之火:对记录进行分组排序？

、、

我有一套我需要的记录：2)将每一组按“奖品”排序import org.apache.spark.SparkConf val conf = new SparkConf() .setAppNa

浏览 3提问于2015-02-16得票数 10

回答已采纳

1回答

如何在Dataframe火花中添加按ID分组的索引

、、、

----------------+--------------+---------------+-----------+----+--------+----+----------+我已经尝试过使用posexplode了，但是它改变了我的dataframe模式，添加了col和pos列，我像这样修改了我的函数。testDF.schema): _*)

浏览 1提问于2019-06-25得票数 2

回答已采纳

点击加载更多