Pyspark将列列表放入聚合函数_无法将函数放入列表中_将列表放入一列数据框中 - 腾讯云开发者社区

python、apache-spark、pyspark、apache-spark-sql

我有一个关于Pyspark中的udf的问题和一个具体的案例。我正在尝试创建一个简单的、可重用的函数来聚合不同级别和组上的值。输入应为：现有数据帧 group by的变量(单列或列表) 要聚合的变量(同上) 要应用的函数(可以是一个特定的函数，也可以是它们的列表)。我保持简单的求和，平均，最小，最大值，等等。当我有一个单独的函数或一个列表时，我让它可以工作，但是当涉及到聚合变量时，我被困在将它们的<

浏览 60提问于2020-11-26得票数 0

回答已采纳

1回答

为什么PySpark中的agg()一次只能汇总一列？

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

对于下面的数据帧当我试图找到最小和最大值时，我只能在输出中得到最小值。+-----------++-----------++-----------+

浏览 1提问于2017-06-06得票数 11

回答已采纳

1回答

具有列表数据类型的列: Spark HiveContext

pyspark、spark-dataframe、pyspark-sql

下面的代码聚合并创建一个数据类型为list的列： "column_name_1" expr("collect_list(column_name_2) " ) 因此，似乎可以将“list”作为dataframe中的列数据类型。

浏览 2提问于2016-07-15得票数 0

2回答

在群内创建字典

apache-spark、pyspark

下面是一个玩具示例：from pyspark.sql import Rowspark = pyspark.sql.SparkSession(sc) Row(id=1, key='a', value

浏览 0提问于2019-03-22得票数 6

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

apache-spark、pyspark

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

2回答

将可变数量的列传递给Pyspark .Agg()

python、apache-spark、pyspark

在PySpark中，我需要在运行时构建一个列的列表，然后对它们进行聚合。这是一个有效的示例： T.agg(col1,col2) 但是我需要传递一个列的列表类型list of Column (不是string) 不起作用： cols=[col1,col2] T.agg(tupple(cols)) #Passes param as tupple1(tupple2) 两种情况都会在PySpa

浏览 23提问于2020-10-16得票数 0

回答已采纳

1回答

pyspark 1.4如何在聚合函数中获取列表

python、list、pyspark、apache-spark-1.4

我想在pyspark 1.4中获取聚合函数中的列值列表。collect_list不可用。有没有人有建议怎么做？原始列：1, 1030, 01, cell12, 1030, 01, cell3ID, date, hour, cell_list2, 1030, 01, cell3 2, 1030, 02,

浏览 4提问于2017-12-07得票数 0

2回答

列“未包含在聚合函数或GROUP BY子句中”

sql、group-by、max、aggregate-functions

Items D ON B.itemcode = D.itemcode (A.mrno = @MRNo AND B.quantity < C.quantity);列'Mrhdr.mrno‘在select列表中无效，因为它既不包含在聚合函数中，也不包含在GROUP BY子句中。它说，mrno列不包含在某物的聚合函数中，但是当我对它做一些处理时，比如将其放入GROUP BY子句中时，下一列请求

浏览 7提问于2021-12-09得票数 0

回答已采纳

2回答

SQL如何在使用聚合函数处理临时表时选择两列

sql、count

嗨，我创建了一个包含2列的临时表，我想根据group和聚合函数填充这些列。TagIdentifier group by Tagname having count(tagname)>1 ; 选择列表中的'EXEC_REP_TransposedTagAttributes.TagClassDescription‘列无效，因为它既不包含在聚合函数</e

浏览 3提问于2013-10-21得票数 0

2回答

一次聚合一个dataframe的所有列

r、apache-spark、pyspark、aggregate-functions

我希望在一个列上分组一个dataframe，然后在所有列上应用一个聚合函数。它的R等价值是summarise_all。在R.我不想手动在pyspark中的

浏览 1提问于2019-05-22得票数 4

回答已采纳

2回答

使用字典应用聚合时的Pyspark列名别名

python、apache-spark、pyspark

我正在将聚合函数应用于pyspark中的数据框架中。我使用字典传递列名和聚合函数。df.groupBy(column_name).agg({"column_name":"sum"}) 现在，我想对使用聚合方法生成的这个列应用一个别名。有办法吗？我使用字典方法的原因是聚合将根据输入参数动态应用。column_to_group_by).agg(columns_to_aggregat

浏览 16提问于2022-02-23得票数 2

1回答

Noob问题pyspark* -获取最低/最高工资的所有列*

pyspark、min

我刚接触pyspark，并且了解各种聚合函数。但是，它们只给出了应用聚合函数的列。

浏览 9提问于2020-09-29得票数 0

1回答

如何使用Python Dataframe API在Apache Spark中找到中位数？

python、apache-spark、pyspark、median

Pyspark API提供了除median之外的许多聚合函数。Spark 2附带了approxQuantile，它给出了近似的分位数，但精确的中位数计算起来非常昂贵。对于Spark Dataframe中的一列值，是否有更多的Pyspark方法来计算中值？

浏览 3提问于2016-08-03得票数 3

回答已采纳

1回答

从创建multidict

python、pyspark

我是新的火种，并希望创建一个字典从一个电火花数据。我确实有一个工作的熊猫代码，但我需要一个等价的命令，在火星雨，不知怎的，我无法弄清楚如何做。(11, 101, 5.9),(22, 111, 5.2),(22, 101, 5.7),(44, 102, 5.3),df = df.select(['user_

浏览 1提问于2017-11-09得票数 0

回答已采纳

1回答

如何在groupBy聚合函数中使用BitwiseOR操作

python、apache-spark、pyspark

我如何在pySpark Dataframe.groupBy中使用bitwiseOR作为聚合函数，有像sum这样的内置函数可以为我做这件事吗？

浏览 21提问于2019-08-22得票数 0

回答已采纳

2回答

pyspark dataframe、groupby和列的方差计算

python、pyspark、spark-dataframe、pyspark-sql

我想按pyspark数据帧分组，并计算特定列的方差。对于一般人来说，这很容易，可以这样做AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 然而，对于方差，函数子模块中似乎没有任何聚合函数(我也想知道为什么，因为这是一个相当常见

浏览 7提问于2015-08-12得票数 5

1回答

电火花聚合

pyspark、iteration、aggregation

100 | ws | | | 2022-02-01|现在我有一个sql聚合dat1,min(NEXT(m_date3, 'SAT')) as dat3GROUPBY 1,2 我希望使用Pyspark实现上述聚合，但不知道是否可以使用任何形式的迭代来实现dat1、dat2和dat3，因

浏览 5提问于2022-04-23得票数 1

回答已采纳

10回答

基于另一个变量保持顺序的collect_list

python、apache-spark、pyspark

我试图使用现有列集上的groupby聚合来在Pyspark中创建一个新的列表列。| 1500id | value_list1 | [10, 5, 15, 20]列表中的值按日期排序我尝试使用collect_list，如下所示：ordered_df = input_df.orderBy([&#x

浏览 8提问于2017-10-05得票数 82

回答已采纳

1回答

Parquet文件中groupby的最佳实践

python、pyspark、parquet、dask

为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：我们知道有一个p

浏览 2提问于2017-07-09得票数 3

2回答

使用scipy记分规范大型电火花数据

python、dataframe、apache-spark、pyspark、databricks

我有一个包含20个数值列的星星之火数据，名为column1、column2、...column20。我必须计算这20列的Zscore(from scipy.stats import zscore)，因为我将这20列读入numpy数组。但是这个收集正在导致星火集群重新启动，据我所知，collect正在试图将整个数据集带到一个驱动程序中，我们有一个解决这个问题的替代方法吗？normalized_df['sq_dist'] = [np.linalg.norm(i) for i in norm

浏览 15提问于2022-11-13得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云