如何根据等级和值过滤PySpark数据帧中按字段分组的记录

文章/答案/技术大牛

发布

1回答

、、

我有一个Pyspark dafaframe (Spark 2.2/Python2.7)，它有多个记录，每个客户在一段时间内的多天收到。以下是数据的简化版本。在为每个组接收这些数据时，按日期(YYYY-MM-DD)的顺序进行排序。数据保证每个CUST有多个实例 _ ID。2019-07-31 24 2021-01-01 2 4 2

浏览 27提问于2021-03-02得票数 -1

回答已采纳

2回答

根据PostgreSQL中多个字段的排名选择或筛选列

、、

在其中一个表中，我有多个字段，每个字段都有一个排名字段。所有这些字段都有一个共同的分组属性，我需要根据该属性找到可以存在于组的任何记录中的最佳排名列值。----------+-----------+-----------------+-------------+----------------------+------------+ 现在我需要在单个记录<

浏览 0提问于2017-12-22得票数 1

2回答

表-根据行中的值选择前3

、、

很抱歉，这个问题可能很简单，但我是Tableau的新手。假设您有以下数据集： A,3 B,10我希望Tableau有一个集合/计算字段(哪一个？)有一个公式说，我想从数据集中得到最高的3个值，只要它们属于A类，那么在Tableau的公式中可以使用吗？

浏览 6提问于2020-10-27得票数 1

回答已采纳

3回答

MySQL：“按”组内的“订购”

、

我有一个MySQL表names，它由两个字段组成：name和rank。name值不是唯一的，可以有多个匹配项。问题是:我想选择按name分组的记录，但是如果有多个name，则应该选择rank最高的记录。举个例子：本1 汤姆2我需要：本2 因为有两个宾斯，但第二个有更高<e

浏览 5提问于2011-03-19得票数 13

回答已采纳

2回答

用PySpark进行组索引

、、

我正试着把下面的熊猫代码翻译成PySpark。但我在这两点上有困难：我在文件里没有发现任何好的东西。如果你有提示的话，我会非常感激的！

浏览 9提问于2022-10-04得票数 0

回答已采纳

4回答

如何使用pyspark* collect_list函数检索所有列*

、

我有一个pyspark 2.0.1。我正在尝试按我的数据框分组，并从我的数据框中检索所有字段的值。我发现将给我的国家和名称的属性和名称属性的值，它将给出<e

浏览 6提问于2017-10-18得票数 3

2回答

在group期间，我需要接受一个变量，这个变量在group中也不使用，我也不想接受它的聚合函数(我希望它是这样的)

、、

我有一个数以百万计的记录和8列的数据框架。我想根据它与col1和col2分组，在select中，我想要name_id，max(SUM)，col1，col2。现在的问题是，我没有按条件在组中使用name_id，也不是一个聚合函数。请您提出任何方法来解决我的问题，在SQL或Pyspark。在这里输入数据帧SUM =列数有数

浏览 2提问于2020-01-20得票数 0

回答已采纳

1回答

在pyspark中保持至少有一个元素满足条件的组

、、

我一直在尝试用pyspark重现一些在Pandas中很容易做到的东西，但我现在已经挣扎了一段时间。2 53 1 195 2 7 和列表 l = [5,1] 我尝试做的是按a进行分组，如果b中的任何元素都在列表中，则为该组中的所有值返回True。然后，我们可以使用结果来索引数据帧</em

浏览 8提问于2020-11-04得票数 2

回答已采纳

1回答

ODOO :按字段值分组

、、

我有一个选择字段'state‘，它的值类似于resolved, dismissed, closed。我已经按“状态”字段对记录进行了分组，但是如何根据字段值(在本例中是按resolved, dismissed and closed对记录进行分组)来分组记录 <group ext

浏览 6提问于2016-11-25得票数 3

回答已采纳

1回答

将3级嵌套字典键值转换为pyspark* dataframe*

、、、

我有一个Pyspark数据框架，看起来像这样： ? 我想提取"dic“列中的那些嵌套字典，并将它们转换为PySpark数据帧。如下所示： ? 另外，每一行中的键也会有一些变化，例如，一些行可能有其他行没有的字段。我希望包括所有字段，如果一条记录没有某些字段/keys，则该值可以显示为"null“。请告

浏览 22提问于2020-07-22得票数 0

2回答

按字段分组，并将值合并到一行中。

、

我想知道如何按字段对数据帧进行分组，然后将组连接到一行中，优先处理非空值。这是一个按ID分组的示例： 

浏览 3提问于2016-04-21得票数 4

回答已采纳

2回答

报告中的分组记录

、

此脚本根据前一个屏幕中的用户输入(开始日期和结束日期)过滤记录。它工作正常，但我希望输出的报告按另一个字段SN对数据进行分组。我该如何添加该参数？

浏览 0提问于2018-06-20得票数 0

1回答

合并pyspark* dataframe中的重复记录*

、、、、

我有一个有重复ids的pyspark数据帧。某些记录中存在缺失值，重复ids之间的"Time“字段存在差异。-------------+------------------------+-------------------------+---------------------------------+ 如何合并每个字段中的信息并将其合并为一条

浏览 1提问于2020-08-10得票数 0

1回答

使用交叉过滤器获取唯一值

根据选定的过滤器，在页面中显示适当的数据。我有所有正确的工作，包括同时使用多个过滤器(每个过滤器可以包含多个值)。我想要做的是显示由选定的组组织的数据。例如，如果我的数据有3列: Office、Department和Gender，用户可以在Office =纽约、亚特兰大和性别=女性上进行筛选

浏览 2提问于2015-11-18得票数 1

回答已采纳

2回答

要为每行pyspark* dataframe计算多个if elif条件*

、、、

我需要帮助在pyspark数据帧主题。我有一个数据框架，比如1000+列和100000+ rows.Also，我有10000+ if elif条件，在每个if else条件下，只有很少的全局变量被一些值递增。现在我的问题是，我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数，它们根据条件返回行，我需要检查这些10000+ i

浏览 0提问于2017-07-25得票数 0

1回答

将pyspark/pandas数据帧中的嵌套dict值转换为列和行

、、、、

我有一个只有一条记录的pyspark数据帧。它包含一个id字段和一个"value“字段。value字段包含嵌套的语句，如下面的inputdf所示。我想创建一个新的数据帧，如下面的outputdf所示，其中type列是inputdf中value字段中嵌套dict的键，value

浏览 0提问于2020-08-08得票数 1

1回答

如何计算分组Spark数据帧中的布尔值

、、、、

我想从分组的Spark数据帧中计算一列中有多少条记录是真的，但我不知道如何在python中做到这一点。例如，我有一个包含region、salary和IsUnemployed列的数据，其中IsUnemployed是一个布尔值。我想看看每个地区有多少失业人员。我知道我们可以先做一个filter，然后再做groupby，但是我想同时生成两个聚合，如下所示 from pyspark.sql

浏览 0提问于2016-02-19得票数 17

回答已采纳

1回答

显示组和agg之后的所有火花放电列

我希望按一列分组，然后找到另一列的最大值。最后，显示基于此条件的所有列。然而，当我使用我的代码时，它只显示2列，而不是所有列。# Normal way of creating dataframe in pyspark (2,2,'0-2spark.createDataFrame([ (5,7,'6-

浏览 0提问于2020-01-19得票数 0

回答已采纳

1回答

如何在aws glue dynamicframe上创建过滤掉一组(文字)值的过滤器

在glue脚本中(运行在zeppelin notebook中，转发到glue中的开发端点)，我已经从glue表创建了一个动态框架，我希望过滤不在静态值列表中的字段"name“，即("a"，"b"，"c"对不相等进行过滤就像这样： r

浏览 8提问于2021-02-12得票数 0

回答已采纳

1回答

在组内计数不同的/非唯一的

、、

我想在每一组中计算不同的元组数： 'b':by='a', columns=['b', 'c']) assert counts == pd.Series([4, 2

浏览 0提问于2016-09-05得票数 2

回答已采纳

点击加载更多