来自PySpark的每个密钥的Distinct列表

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

3回答

、、、

我有一个带有键值对的RDD。我只想要一份明确的钥匙清单。我将分享代码和示例。提前谢谢你！(u'11847272', 10)], [(u'af1lowprm1704', 5), (u'am1prm17', 2), (u'af1highprm1704', 2)]]rdd4.distinct().keys() [

浏览 3提问于2017-08-16得票数 2

回答已采纳

1回答

基于另一个带有json列的数据帧创建spark Dataframe

、、、

我有一个Spark Dataframe (json_df)，我需要基于嵌套的json创建另一个Dataframe：这是我当前的数据帧： ? 我知道我可以手动这样做：final_df = json_df.select( col("Body.EquipmentId"),..... )，但我想以一种通用的方式这样做。注意:对于这个特定的DF，json记录具有相同的结构。有什么想法吗？谢谢!

浏览 12提问于2021-09-09得票数 0

1回答

使用PySpark统计每个窗口的用户数

、、、、

其中一个关键字是用户的email。 3 ---->

浏览 2提问于2018-11-21得票数 0

1回答

如何在Pyspark中从MapType列中获取键和值

、、、

我尝试在PySpark中复制这个问题的解决方案(Spark < 2.3，所以没有map_keys)：下面的是我的代码(与上面链接的问题的df相同)： .select(F.explode("alpha"))\ .distinct()\ df.select

浏览 44提问于2020-05-20得票数 0

回答已采纳

1回答

星火的RDD.combineByKey()是否保持先前排序的DataFrame的顺序？

、、、

我在PySpark中这样做过：问题：，我能确定每个资产的数据仍然会在最后一步的RDD中按时间顺序排序吗？时间顺序对我来说是至关重要的(我需要在每个资产的移动时间窗口上计算统计数据)。当RDD.combineByKey

浏览 1提问于2017-04-26得票数 0

回答已采纳

1回答

如何用pyspark图形框架pregel API实现循环检测

、、、、

我正在尝试用Pyspark和图形框架实现来自Rocha & Thatte ()和pregel包装器的算法。在这里，我被用于消息聚合的正确语法卡住了。这一想法是向前推进的： ...In每经过一次，G的每个活动顶点都会向其外部邻居发送一组顶点序列，如下所述。在第一遍中，每个顶点v向它的所有外部邻居发送消息(v)。在随后的迭代中，每个活动顶点v将v附加到它在上一次迭代中接收到的

浏览 0提问于2019-11-16得票数 3

回答已采纳

2回答

从Spark RDD中删除重复的

、、、

我在我的文件中收集了重复的记录作为字典列表。下面是我的sampleRDD变量内容，它是一个pyspark.rdd.RDD对象：,{"A": 111, "B": 222, "C":

浏览 1提问于2016-01-18得票数 0

1回答

我有一个有两个列的DataFrame，id1, id2，我想要得到的是计数，这两个列的不同值的数量。本质上这是count(set(id1+id2))。我怎样才能用PySpark做到这一点呢？请注意，，这不是一个重复的，因为我希望PySpark计算count()。当然，获得两个列表id1_distinct和id2_distinct并将它们放到set()中是可能的，但在我看来，在处理大数据时，这并不是

浏览 11提问于2021-05-16得票数 0

回答已采纳

1回答

pyspark.sql.functions -计数以考虑空值：

、

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。| accounts| null|+---+------+-----------+------+ 现在，如果我运行以下代码来计算每个列中不同值的数量从我的研究来看，这似乎与count_distinct

浏览 12提问于2022-06-07得票数 0

1回答

如何在pyspark中将字符串的RDD映射到Dataframe的列

、

我有一个字符串的RDD，它存储数据帧的列名。我想将这个RDD的每个值映射到它引用的列的计数。下面是我的代码：mis = rdd.map(lambda x: df.select(x).distinct.count()) mi

浏览 7提问于2016-08-16得票数 0

1回答

左反团员

、、、

我有一个dataframe，它有两个列a和b，其中b列中的值是a列中值的a子集。，其中anti_b列中的值是来自a列的任何值，这样a!().crossJoin(df.select('a').withColumnRenamed('a','anti_b').distinct()).where(pyspark.sql.functions.col('b').alias('bs')

浏览 2提问于2019-11-18得票数 0

1回答

基于值过滤和在spark数据帧中创建列表

、、、

我是spark的新手，我正在尝试使用Pyspark来做以下事情：我有一个包含3列的数据帧，"id", "number1", "number2"。对于"id"的每个值，我都有多个行，我想做的是创建一个元组列表，其中包含与每个id对应的所有行。2个列表： [(1, 1), (2, 2)] 和 [(3, 3), (4, 4)] 我不知道该怎

浏览 15提问于2021-01-22得票数 0

回答已采纳

3回答

如何在PySpark中执行groupby并查找列的唯一项

、、

我有一个pySpark数据，我想按一个列分组，然后在另一个列中为每个组找到唯一的项。在熊猫身上我可以做，我也想对我的火花数据做同样的。), .alias('count_B') .show()) 但我找不到一些功能来找到小组中独特的

浏览 0提问于2019-06-19得票数 5

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

、、、、

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用：from pyspark.sql.functions imp

浏览 13提问于2022-10-19得票数 1

回答已采纳

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云