使用PySpark如何根据groupby/window/partition填充列中的值并执行自定义函数？_如何使用pandas/python创建多个新列，并根据其他两个列中的值填充列？ - 腾讯云开发者社区

pyspark、window、user-defined-functions、populate、partition

我正在尝试填充列中缺少的值。组/分区中第一行或任何后续行(根据日期按顺序排列)中的配置文件列将具有必须在配置文件列的以下单元格中填充的值。我曾尝试使用窗口函数运行它，但无法将UDF应用于窗口函数。

浏览 35提问于2019-06-07得票数 0

回答已采纳

1回答

Pyspark:如何将行分组为N个组？

pyspark

我在pyspark脚本中执行df.groupBy().apply()，并希望创建一个自定义列，该列将我的所有行分组到N(尽可能均匀，所以行/n)组中。这就是为什么我可以确保每次脚本运行时发送到我的udf函数的组数。我如何使用pyspark来做这件事？

浏览 32提问于2020-07-21得票数 0

回答已采纳

3回答

向PySpark数据帧中添加组计数列

apache-spark、pyspark、dplyr

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。尤其是，假设我拥有如下数据集--+--a | 8b | 1x | y | na| 5 | 3a | 7 | 3在dplyr中，我只想说： df <-

浏览 0提问于2018-02-14得票数 37

回答已采纳

2回答

提高我数据过滤pyspark程序的性能

python、pyspark

我想使用pyspark提高我的应用程序的性能。数据框如下所示:每一列表示用户XXX发布的关于问题XXX的评论。+ | 51697036|R1R4GTQCO51GC0|B0000001NY| 现在我想删除发表评论少于1条的用户发表的评论，以及收到评论少于3条的问题中的评论我的代码是这样<e

浏览 24提问于2019-05-16得票数 1

1回答

显示组和agg之后的所有火花放电列

pyspark

我希望按一列分组，然后找到另一列的最大值。最后，显示基于此条件的所有列。然而，当我使用我的代码时，它只显示2列，而不是所有列。# Normal way of creating dataframe in pyspark (2,2,'0-2spark.createDataFrame([ (4,6

浏览 0提问于2020-01-19得票数 0

回答已采纳

2回答

用另一列的值指定滞后期

python、pyspark、apache-spark-sql

我有一个表，并希望得到另外两个列(column1和column2)，其期望值如下：1 1column1的滞后函数，但是我得到了错误: TypeError: column不可迭代。以下是我的职责：from pyspark.sql import <

浏览 8提问于2022-01-08得票数 0

2回答

如何基于具有相同id的另一行更新行

apache-spark-sql

使用，我希望基于具有相同id的其他行更新一个行值。value1,null2,202,nullid,value1,102,202,20 总之，在某些行中，value列为null，如果另有一个具有相同id且具有有效值的行，我希望更新它们。在sql中，我只需编写一个内部联接的更新语句，但在Spark中却找不到相同的方法。更

浏览 1提问于2018-12-24得票数 1

回答已采纳

1回答

更改aggregate子句是否会更改pandas_udf - pyspark中的任何内容？

python、apache-spark、pyspark、user-defined-functions

我是spark的新手，我想知道这是否会改变内存消耗以及如何将任务分配给它的工作人员。请看下面这个最小的例子，让你能够理解我的要求。pandas udf，以便能够在spark中使用我的python函数 schema = T.StructType([T.StructField('xy', T.FloatType() ),("PARTITION_ID").apply(newfunction) # t

浏览 20提问于2021-11-16得票数 0

回答已采纳

1回答

如何在PySpark 2.1.0中定义事件时间窗口上的UDAF

python、apache-spark、pyspark、apache-spark-sql、spark-structured-streaming

我正在编写一个Python应用程序，它在一个值序列上滑动一个窗口，每个值都有一个时间戳。我想对滑动窗口中的值应用一个函数，以便根据图中所示的N个最新值计算分数。我们已经使用Python库实现了该函数，以利用GPU。我发现Apache Spark 2.0附带了结构化流，它支持事件时间的窗口操作。如果您希望从.csv文件中读取有限的记录序列，并</

浏览 21提问于2017-03-12得票数 2

回答已采纳

1回答

Pyspark:基于条件对窗口求和

python、apache-spark、pyspark、apache-spark-sql、window

1 ||2001-04-25|188|1 |+----------+---+---+ 我想在滚动窗口中对eps列中的值求和，只保留id列中任何给定ID的最后一个值。在我看来，在滚动窗口中，我应该做一些像F.sum(groupBy('id').agg(F.last('eps')))这样的事情

浏览 2提问于2021-03-10得票数 0

1回答

聚合为三个最大值的总和，按火花放电计

python、pyspark

我有一个按'id‘和’type‘分组的dataframe：| id|type|count|| 0| A| 2|| 1| C| 1|| 1| G| 2|现在我想按'id‘进行分组，得到3个最大值的总和：| id|count|| 0| 8|+

浏览 0提问于2018-10-24得票数 0

2回答

Pyspark窗口函数:计算分类变量的数量和计算百分比

apache-spark、pyspark、apache-spark-sql

我有以下格式的数据框架。每个产品都有不同的ID，以及相关联的产品名称和类型。A 202 JIK C 40因此，我正在尝试在单独的列中获取该产品名称和ID的A、B和C总数的百分比。作为第一步，我尝试使用窗口函数，但它给出了整个列的&quo

浏览 0提问于2021-09-22得票数 2

3回答

Pyspark dataframe:对一列进行求和，同时对另一列进行分组

python、apache-spark-sql、pyspark、pyspark-sql、apache-spark-1.3

299.95 5 299.98 from pyspark.sql import functions as func prova_df.groupBy

浏览 0提问于2015-11-28得票数 9

1回答

如何用dataframe子部分中的另一列中的值替换一个列中的值？

dataframe、pyspark、pivot

我必须对dataframe的"activity“列执行group和pivot操作，并用"quantity”列之和填充由pivot产生的新列。但是，其中一个活动列必须使用“成本”列的总和填充。2 | swimming | outdoor |枢轴码：

浏览 1提问于2022-08-01得票数 0

回答已采纳

1回答

在火花放电中创建计数器

python、r、apache-spark、pyspark

如何在Pyspark中实现以下R代码l$d2[1]= 0for(i in2:nrow(l)) c= ifelse(l$d2[i]<=3,c,c+1) }如果值大于或等于3，我想迭代一列，并增加一个计数器。假设我的专栏中的<

浏览 3提问于2016-11-07得票数 2

1回答

PySpark:用于枕木统计变换的熊猫UDF

pyspark、pandas-udf

我试图在星火数据表上创建x列的标准化(z-得分)列，但我遗漏了一些东西，因为它们都不起作用。下面是我的例子：from pyspark.sql.functions import pandas_udf, PandasUDFType df = df.withColumn('y', zscore_udf

浏览 7提问于2022-06-04得票数 0

1回答

如何为PySpark设置窗口函数的分区？

apache-spark、pyspark、apache-spark-sql、google-cloud-dataproc

我正在运行一个PySpark作业，并收到以下消息：编辑：我正试着在整个专栏上排名。我的</e

浏览 3提问于2016-04-05得票数 6

2回答

火花放电drop_duplicates(keep=False)

python、pandas、pyspark、duplicates

我需要一个用于潘达斯 drop_duplicates(keep=False)的解决方案。不幸的是，keep=False选项无法在pyspark中使用..。subset=['A', 'B'], keep=False)预期产出：2 bar 5 three 转换.to_pandas()并将其返回到pyspark

浏览 1提问于2019-01-09得票数 1

回答已采纳

1回答

在pyspark* dataframe中检索最大值时遇到问题*

python、apache-spark、pyspark、apache-spark-sql、aws-glue

在我通过使用窗口和对一组列进行分区来计算pyspark dataframe中每行5行内的平均数量之后 from pyspark.sql import functions as Fconsecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window)) 我尝试使用相同的组进

浏览 14提问于2020-06-19得票数 0

回答已采纳

1回答

如何将窗口函数直接输出到SQL中的新窗口函数？

sql、sqlite、subquery、common-table-expression、window-functions

尽管根据我的理解，MyMax的列是动态创建的，但我猜想SQL仍然不能立即将其值用作下一个窗口函数的输入。我已经尝试为MaxPower创建列并在上面的查询之前填充它，通过ALTER TABLE MyTable ADD COLUMN MyMax real;FROM ( SELECT *, Max(Watts) OVER

浏览 5提问于2022-04-15得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云