pyspark中的groupby和join vs窗口_pyspark groupby和window中的结构类型_Pyspark中的GroupBy操作 - 腾讯云开发者社区

group-by、pyspark、window、partition-by

我在pyspark中有一个数据帧，它有数亿行(这里是它的一个虚拟样本)： import datetimefrom pyspark.sqlimport Window,Rowfrom pyspark.sql.functions import month, mean一种方法是使用grouby和join： dg1

浏览 21提问于2019-02-04得票数 3

2回答

删除与某些行相关的所有重复行。

python、pyspark、apache-spark-sql、pyspark-sql

我见过几个这样的问题，但对我的情况不是一个令人满意的答案。3.0| 0||892383| 2.0| 0|+------+-----+----+ 产

浏览 0提问于2018-07-25得票数 1

回答已采纳

3回答

在的窗口上创建一个组id

apache-spark、pyspark、apache-spark-sql、window-functions

我有一个数据文件，我想在每个窗口分区中给出id。例如，我有1 | a |3 | b |5 | c |id | group |1 | 1 |3 | 2 |5 | 3 |w = Window().

浏览 0提问于2018-05-08得票数 5

回答已采纳

1回答

使用PySpark根据行值模式对记录进行分组

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一张三栏的桌子：| Q| 2| 9|我希望通过根据"col1“值对记录进行分组来连接"col2”中的字符串col2“的模式为1，后面跟着任意数量的0，然后是2。我想对具有"col2”以1开头，以2结尾的记录进行分组(必须维护数据帧的顺序--您可以使用row

浏览 0提问于2020-04-01得票数 2

回答已采纳

1回答

GroupBy之后的PySpark Join

python、join、pyspark、group-by、pyspark-dataframes

我有两个数据帧，我想要做的是按组/分区连接它们。我如何在PySpark中实现它？第二个df包含没有间隔的时间序列。我想要达到的结果是

浏览 4提问于2020-03-30得票数 2

2回答

在Spark DataFrame中查找每个组的最大行数

apache-spark、pyspark、apache-spark-sql

在一个包含14个节点的Google Dataproc集群中，我有大约600万个名称被两个不同的系统转换为I：sa和sb。每个Row包含name、id_sa和id_sb。我的目标是生成一个从id_sa到id_sb的映射，以便对于每个id_sa，对应的id_sb是附加到id_sa的所有名称中最常见的id。让我们试着用一个例子来说明。a1到b2的映射。实际上，与a1关联的名称是n1、n

浏览 0提问于2016-02-05得票数 54

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用：from pyspark

浏览 13提问于2022-10-19得票数 1

回答已采纳

3回答

用Spark中另一个类别列的平均值替换列的空值

database、scala、apache-spark、apache-spark-sql

我有这样的数据集1 A NaN3 A 10.5val df2 = dataFrame.groupBy(category).agg(mean(value)).rdd.map{ }.collect().toMap我得到了每个类别的地图以及它们各

浏览 6提问于2017-02-21得票数 1

回答已采纳

2回答

带有groupby的pyspark collect_set或collect_list

list、group-by、set、pyspark、collect

在groupby之后，如何在数据帧上使用collect_set或collect_list。例如：df.groupby('key').collect_set('values')。

浏览 2提问于2016-06-02得票数 62

回答已采纳

1回答

如何选择最大值行的所有列

python、apache-spark、pyspark

我需要通过对'ID‘进行分组来选择数据帧中的所有列。但是当我这样做的时候，我只能得到ID和'value‘。我需要所有的栏目a.show() 这只选择'id‘和'date’列。还有其他列。如何选择日期中最大值的所有列。

浏览 17提问于2018-09-06得票数 3

回答已采纳

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

apache-spark、pyspark

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

1回答

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

apache-spark、pyspark、pivot

假设这一步骤是必要的，它似乎无休止地运行在16节点4 cpu上，每个cpu的内存为30 16，cpu利用率为100% (4)。见我做错了什么？该命令看起来如下：df_aggregate_and_pivot = df_groupby.pivot('day').agg(*aggs然而，仅在7.1秒内a就返回了： df_groupby.pivot(pivot_col, piv

浏览 1提问于2021-01-28得票数 1

1回答

Pyspark --根据另一个数据框的行值过滤数据框

pyspark、apache-spark-sql、pyspark-dataframes

我有一个主数据帧和一个辅助数据帧，我想逐行遍历它们，根据每行中的值过滤主数据帧，在过滤后的主数据帧上运行函数，并保存输出。 my_list = df_filt.select('Name').rdd.flatMap(lambda x: x).collect() return '-'.join</

浏览 0提问于2020-05-28得票数 1

1回答

聚合一列，但在选择中显示所有列

apache-spark、pyspark、apache-spark-sql

在按日期列分组行时，我尝试显示列的最大值。所以我尝试了这段代码 .groupBy('DATE')\但是产出看起来是这样的：| DATE|max(CLOSE)||1987-05-08|51.441| 0| 51.441|

浏览 2提问于2020-07-24得票数 2

回答已采纳

2回答

在PySpark中有效地对不同的值求和并在求和中创建百分比

python、pyspark、sum、distinct

假设Ι有一个这样的数据帧： df Monday 0 7Tuesday 1 13 Tuesday 0 84 如何使用group和day给出的百分比创建名为' percentages‘的新列？Tuesday 1 13 13/31

浏览 25提问于2020-10-13得票数 0

回答已采纳

1回答

在火花表中追加聚合状态从循环开始

pyspark

在循环中的每一次迭代中，我过滤掉H列中带有特定字符串的所有行，然后计算G列上的一些聚合统计数据(结果为3个值)。我希望将所有的汇总计数保存在一个表中(行: CM、NCM、FP；列: POP、POP N、POP SN、POP QP)。from pyspark.sql import SparkSessionimport numpy as np

浏览 0提问于2018-10-28得票数 0

回答已采纳

7回答

MySQL的GROUP_CONCAT聚合函数的Spark SQL替换

apache-spark、aggregate-functions、apache-spark-sql

我有一个包含两个字符串类型列的表(username, friend)，对于每个用户名，我希望将它的所有朋友收集在一行上，并以字符串的形式连接起来。例如：('username1', 'friends1, friends2, friends3') 我知道MySQL和GROUP_CONCAT就是这么做的。有没有办法用Spark SQL做到这一点？

浏览 246提问于2015-07-27得票数 40

回答已采纳

2回答

如何在groupBy之后进行过滤和打印？

pyspark

我想过滤所有三个部门都有名称的行。test, d1test, d3test1, d3test, d1test, d3 到目前为止，我尝试的是df.groupBy(“名称”).show()，它不能工作，因为我没有在groupBy之后进行任何聚合。

浏览 7提问于2022-03-04得票数 0

回答已采纳

1回答

我必须遵守pyspark* sql中的命令顺序吗？*

python、pyspark-sql

我正在学习pyspark sql，我不确定函数的顺序是否必须是下一个？groupby() agg() join() select() .agg(f.max('value').alias('value'))\ .

浏览 2提问于2019-09-18得票数 0

1回答

在列中对列表中的值进行合并和操作

python、join、apache-spark、dataframe、pyspark

type的keywords的平均score。因此，person 'u1‘在type 'type1’上的平均值为1.5，因为它有关键字'a‘和'b’，它们的贡献为2+1/2=1.5。我尝试了一种包括连接的方法： .select('person', 'type', 'keywords', 'keyword&#x

浏览 2提问于2016-03-19得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云