如何在Pyspark中使用groupby删除条件中的列

文章/答案/技术大牛

发布

1回答

、、

_3_1 | ns_3_2 | 11df在一个由accountname字段组成的groupby中，我需要根据每个accountname中的clustername字段进行过滤，这样做如下:当clustername中的行对每个accountname有超过1个条目时，删除namespace = infra的行，如果clu

浏览 20提问于2021-03-04得票数 0

回答已采纳

2回答

如何删除所有重复行(忽略某些列)而不留下任何dupe对？

、、

8 | 3258958304 |+----+-------+-------+--------------++----+-------+-------+-----------+| 5 | steve | 9 | 124324234 | +----+-------+-

浏览 1提问于2018-06-19得票数 1

回答已采纳

1回答

Pyspark:在groupBy之后删除列条件中的行

、

这是我的输入数据帧：1 Y2 a3 Nid val 2 a 3 N 我想在val中同时包含Y和N的列id上进行分组，然后删除val列包含"N“的行。请帮我解决这个问题，因为我是pyspark的初学者。

浏览 7提问于2018-09-06得票数 2

回答已采纳

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

2回答

通过对多列进行分组，用平均值填充缺失值

、

描述：“如何用平均、按条件分组数据和按Pyspark中的模型列来填充价格列中缺失的值?我的python代码如下:cars['price'] = np.ceil(cars['price'].fillna(cars.groupby(['condition', 'model' ])['price错误：我尝试了不同的代

浏览 2提问于2021-12-01得票数 2

回答已采纳

1回答

pyspark dataframe“条件应为字符串或列”

、、、

我无法对数据帧使用筛选器。我一直收到错误“TypeError(”条件应该是字符串或列“)” 我已经尝试更改滤镜以使用col对象。尽管如此，它还是不起作用。path = 'dbfs:/FileStore/tables/TravelData.txt'from pyspark.sql.types importimport col answerthree = df.select("toLocat

浏览 21提问于2019-02-02得票数 0

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

、、、、

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用： from pyspark.sql.functi

浏览 13提问于2022-10-19得票数 1

回答已采纳

3回答

熊猫-如何在有条件的群中创建多个列？

、、、

我需要分组一个dataframe，但是我需要创建两个列，一个是简单计数，另一个是带有条件的计数，如示例所示：qtd_ok列只计算那些有“OK”的我尝试过这样做，但是我不知道如何在同一个groupby中添加总数 df.groupby(['column1', 'column2', 'column3']).apply(lambda x :

浏览 0提问于2018-11-21得票数 4

回答已采纳

5回答

PySpark中的Panda的value_counts()的等价物是什么？

、、、

我有以下python/pandas命令：我在这里获取DataFrameGroupBy对象中所有列的值计数。如何在PySpark中执行此操作？

浏览 1提问于2018-06-27得票数 32

1回答

Dataframe中新列的PySpark 1.5组和

、、、、

我试图使用groupBy和sum (使用PySpark 1.5)在中创建一个新列(“PySpark”)。我的数字列已被转换为长列或双列。用来形成groupBy的列是字符串和时间戳。我的代码如下 df= df.withColumn("newaggCol",(df.groupBy([df.strCol,df.tsCol]).sum

浏览 2提问于2016-03-07得票数 2

回答已采纳

1回答

用火花放电写自定义的联非新议程

、、、

我需要编写一个自定义的pySpark，我遇到了这个例子。在类似的行中，如线程的最后一部分所示，我提出了以下函数 StructField("keybloomfilter.set(df.value1) return pd.DataFrame([[gr]+[x]+[y]+[w]+[z]+[p]]) df3.grou

浏览 1提问于2019-04-04得票数 1

1回答

在pyspark中分组时，对另一列中满足额外条件的元素进行计数

、、

以下pyspark命令 df = dataFrame.groupBy("URL_short").count().select("URL_short", col("count").alias("NumOfReqsdataFrame中，我有一个名为success的列，其类型为text。在结果中，我希望有一个额外的列，例如，NumOfSuccess，它计算每个类别"true&qu

浏览 19提问于2018-12-18得票数 1

回答已采纳

1回答

如何将字符串数组转换为带条件的结构数组

、、、、

我有一个单列_c0的pyspark数据帧。我使用的代码如下： transform(split(_c0, '[|]'), (x, i) -> 问题是，我有多

浏览 21提问于2020-02-09得票数 1

回答已采纳

2回答

PySpark Pandas:通过标识列和求和两个不同的列来创建新的2x2表

、、、、

我有以下示例数据集：A 1 1A 00A 1 1我想通过将"previous“和"current”列相加来创建下表previous_total current_total我已经尝试了groupby和.agg<e

浏览 0提问于2018-10-30得票数 0

3回答

PySpark DataFrame上分组数据的熊猫式转换

、、、、

如果我们有一个由一列类别和一列值组成的Pandas数据框架，我们可以通过执行以下操作来删除每个类别中的平均值：据我所知，不直接提供这个按组/转换操作(我在Spark1.5.0上使用PyS

浏览 8提问于2015-12-25得票数 19

回答已采纳

1回答

从pyspark* dataframe中的数组列中删除结构*

、、

我想从dataframe (pyspark)中的数组(在array列中)中删除一个数组。import pyspark.sql.functions as F|1 |[[A, 2], [B, 3]] | |2 |

浏览 18提问于2020-02-05得票数 1

回答已采纳

1回答

Parquet文件中groupby的最佳实践

、、、

为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：读取Parquet文件(Dask或pyspark)，并在dataframe的索引上运行groupby。对于Parquet文件上高效的groupby

浏览 2提问于2017-07-09得票数 3

1回答

与另一列中的条件匹配的列中的Pandas DF - sum值

、、、、

我想根据另一列的条件在一列中求和值。当条件存在时，我可以这样做，但如果条件不存在，我会得到一个错误。我需要这样做才能接受这个条件不存在，然后继续下一步。示例df：technologies = ({ 'Courses':["Spark","PySpark","Hadoop","Python&qu

浏览 4提问于2022-07-22得票数 0

1回答

PySpark中的群累积计数

、

--------- 1 | john | 3 | jo |目标是，如果'id‘列是重复的在潘达斯，我可以这样做：count_num = count_id.replace(0, '').astype(str)df['id'] += count_num 我试图在Py

浏览 0提问于2019-04-10得票数 0

回答已采纳

3回答

如何修改pyspark使用的一行中的一个列值

我想当userid=22650984.How在pyspark平台上更新它的价值?谢谢你的帮助。

浏览 8提问于2018-04-08得票数 11

回答已采纳

点击加载更多