Pyspark Groupby创建列_Pyspark、groupBy和嵌套列前缀_Pyspark - Groupby和collect列表覆盖多个列并创建多个列 - 腾讯云开发者社区

python、pyspark、pyspark-sql

浏览 4提问于2019-10-09得票数 0

1回答

Pyspark Groupby创建列

python、apache-spark、pyspark、group-by

在Pyspark中，我需要按ID分组并创建四个新列(min，max，std，ave)。 from pyspark.sql import functions as F from pyspark.sql.window import Window w = (Window.orderBy(F.col("Date").cast('long')).rowsBetween(-4, 0)) df = df.groupby("ID") \ .withColumn('hr1_ave', F.avg("rpm").over(w))

浏览 23提问于2020-09-22得票数 1

回答已采纳

1回答

如何通过每个唯一的id列来增加值列的平均值？

python、pyspark、apache-spark-sql

我正在尝试做一些与这个post 非常相似的事情，但是我需要使用pyspark，并且我希望根据不同的ID创建两个列。本质上，我试图用两个新闻列(每个列都包含它们的配对ID的平均值)来附加我原来的pyspark。下面可以找到初始df和输出df的示例：

浏览 8提问于2022-03-18得票数 0

1回答

修改PySpark DataFrame的Pandas代码

apache-spark、pyspark、pyspark-sql

我有下面的代码片段，用于创建一个图形。我想修改它以在PySpark中工作，但不知道如何继续。问题是我不能迭代PySpark中的一个列，并且我已经尝试将它变成一个函数，但没有成功。上下文: DataFrame有一个名为City的列，它只是作为字符串的城市名称 cities = [i.City for i in df.select('City').distinct().collect()] stack = [] for city in cities: df = sqlContext.sql( 'SELECT Complaint Type, COUNT(*

浏览 2提问于2016-12-12得票数 0

回答已采纳

2回答

要Py的SQL查询(Spark)

sql、apache-spark、pyspark、count、aggregation

我有以下SQL查询，我想将其转换为pyspark。我想使用两个列pp和gender，并在pyspark中执行以下操作 %sql SELECT pp , SUM(CASE WHEN Gender = 'M' THEN 1.0 ELSE 0.0 END) / COUNT(1) AS gender_score , count(1) AS total FROM df WHERE gender in ('M', 'F') GROUP BY pp HAVING

浏览 12提问于2020-12-16得票数 0

1回答

pyspark collect_list，但限制为最大N个结果

apache-spark、pyspark

我使用以下pyspark逻辑对一些目标列进行分组，然后将另一个目标列收集到一个数组中： ( df .groupBy(groupby_cols) .agg( F.collect_list( F.col(target_col) ).alias(target_col) ) ) 我希望将结果限制为每个收集的列表最多保留N值，以便结果目标列由具有最大长度为N的数组的单元格组成。现在，我可以在pyspark中用一个UDF来实现这一点，它接受target_col并在每个单元上应用一个lambda：lambda x: x

浏览 8提问于2020-10-09得票数 1

1回答

使用Pyspark函数组合4列并按一列分组

python、pyspark、apache-spark-sql、google-colaboratory

我试图将四列(QBR、码、触地和截取)连接或组合到一个列中，并将它们按球衣编号分组，将sql函数作为pyspark中的f。下面列出了我试图使用的编码、实际数据和预期的数据结果。 import pyspark.sql.functions as f from pyspark.sql.functions import concat, lit, col df = df.groupby('Jersey Number).withColumn("joined", f.concat(f.col('QBR'), f.lit(','), f.col('

浏览 5提问于2020-09-08得票数 0

回答已采纳

1回答

如何在熊猫中动态创建新的列，就像我们在pyspark中所做的那样

python、pandas、pyspark

from statistics import mean import pandas as pd df = pd.DataFrame(columns=['A', 'B', 'C']) df["A"] = [1, 2, 3, 4, 4, 5, 6] df["B"] = ["Feb", "Feb", "Feb", "May", "May", "May", "May"] df["C"] = [10

浏览 7提问于2022-05-18得票数 3

回答已采纳

2回答

除1外，所有列的星火群之和

python、apache-spark、pyspark

我有一个具有如下标题的数据集： |State|2020-01-22|2020-01-23|2020-01-24|2020-01-25|2020-01-26|2020-01-27|2020-01-28| 我正在尝试基于groupBy列和每一列的行值之和(列数保持不变)进行groupBy。但当我用： from pyspark.sql import SparkSession import pyspark.sql.functions as F df = df.groupBy('State').agg(F.sum()) 但是我得到了错误：sum() missing 1 required

浏览 3提问于2022-04-19得票数 0

3回答

向PySpark数据帧中添加组计数列

apache-spark、pyspark、dplyr

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。尤其是，假设我拥有如下数据集 x | y --+-- a | 5 a | 8 a | 7 b | 1 我希望添加一个列，其中包含每个x值的行数，如下所示： x | y | n --+---+--- a | 5 | 3 a | 8 | 3 a | 7 | 3 b | 1 | 1 在dplyr中，我只想说： import(tidyverse) df <- read_csv("...") df %>% group_by(x) %>% mutate(n

浏览 0提问于2018-02-14得票数 37

回答已采纳

5回答

PySpark中的Panda的value_counts()的等价物是什么？

dataframe、count、pyspark、pandas-groupby

我有以下python/pandas命令： df.groupby('Column_Name').agg(lambda x: x.value_counts().max() 我在这里获取DataFrameGroupBy对象中所有列的值计数。如何在PySpark中执行此操作？

浏览 1提问于2018-06-27得票数 32

1回答

将PySpark groupby collect_set迁移到Dask

python、pandas、dask

我正在将一个pySpark实现迁移到Pandas。为了转换大型数据集，我使用了dask包。 pySpark实现： df.groupBy('Key').agg(collect_set('ColumnA').alias('Items'), collect_set('ColumnB').alias('DocumentId')) 到Pandas df.groupby("Key")[['ColumnA','ColumnB']].agg(set).reset_index() 然

浏览 31提问于2021-08-16得票数 0

2回答

将列中的不同值拆分为多个列

python、apache-spark、pyspark

我想要创建一个DataFrame，它将电影的类型分解为单独的列，对于属于这种类型的电影，每个单独的类型列的值为1。从这个对于这个我正在使用Databricks PySpark。非常感谢！

浏览 4提问于2022-01-27得票数 0

回答已采纳

3回答

具有虚拟变量的pyspark矩阵

python、apache-spark、pyspark

有两列： ID Text 1 a 2 b 3 c 我怎样才能用下面这样的伪变量创建矩阵： ID a b c 1 1 0 0 2 0 1 0 3 0 0 1 使用pyspark库及其特性？

浏览 0提问于2016-03-09得票数 13

回答已采纳

2回答

如何查找值列中有多少TRUE或FALSE

python、pyspark、boolean、numeric

我有一个包含一列字符串列的PySpark数据帧。我确实发现了这些列是否是数字。但是现在我想找出在值列中有多少是真的。 values = [('25q36',),('75647',),('13864',),('8758K',),('07645',)] df = sqlContext.createDataFrame(values,['ID',]) df.show() +-----+ | ID| +-----+ |25q36| |75647| |13864| |8758K| |07645| +---

浏览 20提问于2020-09-04得票数 0

回答已采纳

1回答

从pyspark datafame创建nxn矩阵

pyspark、pyspark-dataframes

我对pyspark还是个新手。我有10k文本数据集。我使用Minhash lsh创建了一个Jaccard距离。例如，我得到的输出 col1 col2 dist A B 0.77 B C 0.56 C A 0.88 我想把这个转换成NxN矩阵格式。 A B C A 0 0.77 0.88 B 0.77 0 0.56 C 0.88 0.56 0 有没有办法使用pyspark来创建它。我很感谢你的建议。

浏览 3提问于2020-03-21得票数 1

2回答

如何在pyspark中在groupby之后进行条件聚合？

apache-spark、pyspark

我试图根据pyspark数据格式中的ID列对列进行分组，并根据另一列的值对列进行求和。为了举例说明，请考虑以下虚拟数据格式： +-----+-------+---------+ | ID| type| amount| +-----+-------+---------+ | 1| a| 55| | 2| b| 1455| | 2| a| 20| | 2| b| 100| | 3| null| 230| +-----+-------+---------+ 我想

浏览 1提问于2019-06-13得票数 0

回答已采纳

1回答

动态汇总和重命名PySpark中的聚合列

python、apache-spark、pyspark、apache-spark-sql、data-manipulation

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

1回答

计算文本中的特定字符- pyspark

python、apache-spark、pyspark、apache-spark-sql

我有一个包含文本列的pyspark数据框。此列中可以包含文本(字符串)信息。我所要做的就是在这一列的每一行中计算A，B，C，D等。它类似于： df = spark.read.csv('Data.csv', header=True) df.select(['text']).show(truncate = False) +-------------------------+ |text | +-------------------------+ |BBEBEBEFC | |DDBBCDCBBEC

浏览 6提问于2021-04-05得票数 0

回答已采纳

1回答

统计SPARKSQL中的重复行数

pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

我有一个要求，我需要计算配置单元表的SparkSQL中的重复行数。 from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row app_name="test" conf = SparkConf().setAppName(app_name) sc = SparkContext(conf=conf) sqlContext = HiveContext(sc) df =

浏览 3提问于2018-02-01得票数 11

回答已采纳

1回答

如何确定错误发生在哪一列上？

apache-spark、pyspark、azure-sql-database

使用Pyspark时，当将数据文件中的数据导入到Azure SQL Db表时，我将得到以下错误。错误本身是不言自明的.但是数据文件和目标表有大约100列，其中75列作为字符串列。并且，错误没有指定错误所在的列。问题：在pyspark中，如何确定错误所在的列？错误：来自数据源的VARCHAR(56)类型的给定值不能转换为指定目标列的varchar(45)类型。码 df = spark.read.csv(".../Test/MyFile.csv", header="true", inferSchema="false") ...........

浏览 3提问于2022-08-07得票数 0

1回答

使用另外两列中的信息并列放置两个PySpark df列

python、datatable、pyspark、pyspark-sql

我的PySpark数据帧中有四列： 'drivers','cars','topSpeeds','dates' 假设每个司机在不同的日期用不同的汽车达到了不同的最高速度，不同的汽车在不同的日期用不同的司机达到了不同的最高速度。我可以将每辆车的司机在所有日期的最高速度的平均值如下： df.groupBy("drivers").mean() 我认为这在没有指定按topSpeed求平均值的情况下是有效的，因为topSpeed是唯一具有数值的列。类似地，我可以得到每个司机在所有日期的汽车最高速度的平均值： df.gr

浏览 9提问于2019-02-20得票数 0

回答已采纳

1回答

如何在火花和按数据分组中添加最小和最大函数的新列？

python、python-3.x、dataframe、pyspark、databricks

PySpark Dataframe: adobeDF 向dataframe添加新列： from pyspark.sql.window import Window from pyspark.sql import functions as f adobeDF_new = adobeDF.withColumn('start_date', f.col('Date')).withColumn('end_date', f.col('Date')) 结果：我试图找出如何在start_date中保存min(Date)值和在e

浏览 0提问于2020-02-03得票数 0

回答已采纳

1回答

从字符串列中提取每个不同的单词，并将它们放入新的dataframe中。

python、dataframe、apache-spark、pyspark

我正试图在中找到列中的所有字符串。输入df： id val 1 "book bike car" 15 "car TV bike" 我需要输出df，比如：( word_index值是自动增量索引，"val_new“中的值顺序是随机的)。 val_new word_index TV 1 car 2 bike 3 book 4 我的代码： import pyspark.sql.functions as F from pyspark.sql.types import ArrayType, StringT

浏览 6提问于2020-11-09得票数 1

回答已采纳

2回答

PySpark中列函数中数据集的计数行

apache-spark、pyspark、count

我和PySpark一起工作。我有这样的数据集：我想在"Column3“列的函数中计数数据集的行数。例如，这里我想得到这个数据集：

浏览 9提问于2022-07-26得票数 -1

回答已采纳

1回答

Parquet文件中groupby的最佳实践

python、pyspark、parquet、dask

我们有一个1.5BM记录分散在几个csv文件。为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：将它们加载到数据文件中(使用Dask或pyspark) 聚合列，以便生成2列作为键:value(我们不确定这是否值得) 将文件保存为Parquet 读取Parquet文件(Dask或pyspark)，并在dataframe的索引上运行groupby。对于Parquet文件上高效的groupby来说，最佳实践是什么？在索引上而不是在列(或一组列)上执行groupby有多大益处？我们知道有一个partition可以提供帮助--但在我们的例子中，我们

浏览 2提问于2017-07-09得票数 3

1回答

将两个不同类型的pyspark数据框列相乘(array[double] vs double)，而不需要微风

python、pyspark、pyspark-sql、pyspark-dataframes

我有相同的问题，问here，但我需要一个解决方案，在pyspark和没有微风。例如，如果我的pyspark数据帧如下所示： user | weight | vec "u1" | 0.1 | [2, 4, 6] "u1" | 0.5 | [4, 8, 12] "u2" | 0.5 | [20, 40, 60] 在列权重的类型为double，列的类型为ArrayDouble的情况下，我希望获得每个用户的向量的加权和，这样我就可以得到一个如下所示的数据框架： user | wsum

浏览 26提问于2020-01-08得票数 1

2回答

pivot dataframe将json列转向新列。

python、json、dataframe、apache-spark、pyspark

我希望通过python3从中的json列中提取数据。我的数据： year month p_name json_col 2010 05 rchsc [{"attri_name": "in_market", "value": "yes"}, {"attri_name": "weight", "value": "12.56"}, {"attri_name" : "color", "value" : "

浏览 6提问于2020-07-27得票数 3

回答已采纳

1回答

将(铸)列转换为火花放电中的行

pyspark、apache-spark-sql

我有一个火花数据格式，在下面的格式，每个唯一的id可以有最多3行，这是由秩列。 id pred prob rank 485 9716 0.19205872 1 729 9767 0.19610429 1 729 9716 0.186840048 2 729 9748 0.173447074 3 818 9731 0.255104463 1 818 9748 0.215499913 2 818 9716 0.207307154 3 我希望将(强制转换)转换为逐行数据，以便每个id只有一行，而pred & prob列有多个列(

浏览 2提问于2021-10-21得票数 0

回答已采纳

2回答

如何在pyspark中创建包含两个dataframe列的字典？

python、pyspark

我有一个包含两列的数据帧，如下所示： df = spark.createDataFrame([('A', 'Science'), ('A', 'Math'), ('A', 'Physics'), ('B', 'Science'), ('B', 'English'), ('C', 'Math'), ('C', 'English'), ('C&#

浏览 31提问于2020-07-01得票数 1

回答已采纳

2回答

PySpark Pandas:通过标识列和求和两个不同的列来创建新的2x2表

python、pyspark、sum、pivot、aggregate

我有以下示例数据集： groupby prevoius current A 1 1 A 0 1 A 0 0 A 1 0 A 1 1 A 0 1 我想通过将"previous“和"current”列相加来创建下表。 previous_total current_total 3 4 我已经尝试了groupby和.agg的所有组合，试图实现上表，但无法成功

浏览 0提问于2018-10-30得票数 0

2回答

从pyspark.sql.dataframe.DataFrame到数组

apache-spark、pyspark、apache-spark-sql

假设我有下面的DataFrame。 import pyspark.sql.functions as f from pyspark.sql.window import Window l =[( 9 , 1, 'A' ), ( 9 , 2, 'B' ), ( 9 , 3, 'C' ), ( 9 , 4, 'D' ), ( 10 , 1, 'A' ), ( 10 , 2, 'B' )] df = spark.createD

浏览 0提问于2018-12-17得票数 0

1回答

PySpark根据其他列中的类别添加多个列

python、pyspark

我有一个如下所示的数据集： id | category | value ---+----------+------ 1 | a | 3 2 | a | 3 3 | a | 3 3 | b | 1 4 | a | 1 4 | b | abc 我想要的输出是： id | category_a | category_b ---+------------+-------- 1 | 3 | null 2 | 3 | null 3 | 3 | 1 4

浏览 3提问于2022-03-24得票数 0

回答已采纳

1回答

创建标记客户的新列

pyspark

我的目标是聚合customerID (计数)，创建一个新列，并标记经常返回一篇文章的客户。我该怎么做呢？(使用Databricks、pyspark) train.select("itemID","customerID","returnShipment").show(10) +------+----------+--------------+ |itemID|customerID|returnShipment| +------+----------+--------------+ | 186| 794| 0

浏览 13提问于2021-08-08得票数 0

回答已采纳

2回答

如何计算每个组中出现的字符串数并打印多个选定的列？

python、pyspark、aggregate、data-science

浏览 3提问于2019-12-13得票数 2

回答已采纳

1回答

多列上的多聚合

python、apache-spark、pyspark

我使用Python在Pyspark框架中。我试图使用groupby在不同的列上应用不同的聚合。我有一个包含col1、col2、col3、col4列的df，我想做这样的事情：df.groupby("col1").sum("col2", "col3").avg("col4") 但是我发现了一个错误： "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py"，'DataFrame‘对象没有属性'avg’回溯(最近一次调用)：文件第1

浏览 4提问于2019-09-27得票数 0

回答已采纳

1回答

如何使用pySpark将items行中的数组列单元格转换为计数？

arrays、pyspark、dataset、transformation

我有一个在一列中有多个值的数据集，并且我想计算每个值在数据集的所有行中出现的次数。 initial dataset (example) +----------------+ + answers + +----------------+ + val1#val2#val3 + + val2 + + val3#val5 + +----------------+ Values are separated by #. goal: +---------+-------+ + values + count + +---------+-------+ +

浏览 15提问于2019-10-06得票数 0

回答已采纳

5回答

PySpark -获取重复行的索引

python、apache-spark、pyspark

假设我有一个PySpark数据框，如下所示： +--+--+--+--+ |a |b |c |d | +--+--+--+--+ |1 |0 |1 |2 | |0 |2 |0 |1 | |1 |0 |1 |2 | |0 |4 |3 |1 | +--+--+--+--+ 如何创建标记所有重复行的列，如下所示： +--+--+--+--+--+ |a |b |c |d |e | +--+--+--+--+--+ |1 |0 |1 |2 |1 | |0 |2 |0 |1 |0 | |1 |0 |1 |2 |1 | |0 |4 |3 |1 |0 | +--+--+--+--+--+ 我使用groupB

浏览 2提问于2018-06-15得票数 6

1回答

pyspark dataframe“条件应为字符串或列”

python、dataframe、filter、pyspark

我无法对数据帧使用筛选器。我一直收到错误“TypeError(”条件应该是字符串或列“)” 我已经尝试更改滤镜以使用col对象。尽管如此，它还是不起作用。 path = 'dbfs:/FileStore/tables/TravelData.txt' data = spark.read.text(path) from pyspark.sql.types import StructType, StructField, IntegerType , StringType, DoubleType schema = StructType([ StructField("from

浏览 21提问于2019-02-02得票数 0

回答已采纳

2回答

具有聚合唯一值的py烈dataframe群

python、dataframe、pyspark、group-by

我查找了任何类似于熊猫df.groupby(upc)['store'].unique()的火花放电的参考资料，其中df是熊猫中的任何数据。请使用这段代码在Pyspark中创建数据帧。 from pyspark.sql.types import StructType,StructField, StringType, IntegerType from pyspark.sql import * from datetime import date import pyspark.sql.functions as F spark = SparkSession.builder.appNa

浏览 5提问于2021-12-13得票数 0

回答已采纳

1回答

如何在PySpark collect_list中维护排序顺序并收集多个列表

pyspark、pyspark-sql

我希望维护日期排序顺序，对多个列使用collect_list，所有列都具有相同的日期顺序。我需要它们在相同的数据中，这样我就可以利用它们来创建一个时间序列模型输入。下面是“train_data”的示例：我使用一个带有PartitionBy的窗口来确保tuning_evnt_start_dt对每个Syscode_Stn进行排序。我可以用以下代码创建一个列： from pyspark.sql import functions as F from pyspark.sql import Window w = Window.partitionBy('Syscode_Stn'

浏览 1提问于2018-11-08得票数 2

回答已采纳

1回答

PySpark将函数应用于行的唯一元素

python、pyspark

我在PySpark中工作，并将一个事务表作为Spark DataFrame导入，如下所示： User_ID Date Product_Name -------- ------ ------------- A 2019-11-30. Product 1 B 2019-10-20 Product 2 C 2019-10-01 Product 1 A 2019-12-01 Product 1 我正在尝试做的是创建一个结果表，对于每个唯一的User_I

浏览 11提问于2020-10-03得票数 1

回答已采纳

3回答

根据另一列中的值将PySpark数据框列转换为Python列表

python、pandas、apache-spark、pyspark

我有一个包含2列的数据帧"dfClean“： +---+-----+ |som| ano | +---+-----+ | 1 | 1 | | 2 | 0 | | 3 | 1 | | 4 | 1 | 我需要创建一个Python列表，在同一行的列"ano“中有1的值在"som”中。所以期望的输出是：pyLst = [1,3,4] 在Pandas中我使用过：pyLst = dfClean.som[dfClean.ano == 1].tolist() 我如何在PySpark或Scala中做到这一点，我需要导入哪些额外的库？

浏览 0提问于2021-03-03得票数 0

1回答

.agg(计数([col列表))

python、apache-spark、pyspark

我怎样才能做到这一点？ from pyspark.sql import functions as F from pyspark.context import SparkContext from pyspark.sql.session import SparkSession sc = SparkContext('local') spark = SparkSession(sc) grouped=df.groupby([col list]).agg(F.count([col list])) 我读过关于堆栈溢出的类似问题，但没有找到确切的答案。即使我试着把一列 grouped=dfn

浏览 3提问于2020-02-26得票数 0

回答已采纳

2回答

无法替换空值的星火数据帧

apache-spark、pyspark、apache-spark-sql、pyspark-sql

下面的代码工作得很好，但是如果任何一个字段都是NULL ( SAL1, SAL2, SAL3, SAL4, SAL5列中的5列)，则相应的TOTAL_SALARY将以NULL的形式出现。看起来有些空条件或火花udfs需要创建，请您在这方面提供帮助。投入： NO NAME ADDR SAL1 SAL2 SAL3 SAL4 SAL5 1 ABC IND 100 200 300 null 400 2 XYZ USA 200 333 209 232 444 第二个记录的和很好，但是在第一个记录中，由于SAL4中的null，输出也是null。 from pyspark.she

浏览 1提问于2018-10-15得票数 0

回答已采纳

2回答

如何在每个组中创建一个新列来表示每个用户拥有的项目数量？

apache-spark、pyspark、pivot、spark-dataframe

假设我有一个Pyspark数据帧，如下所示。每个用户在某个特定的日期购买了一件商品。 +--+-------------+-----------+ |ID| Item Bought| Date | +--+-------------+-----------+ |1 | Laptop | 01/01/2018| |1 | Laptop | 12/01/2017| |1 | Car | 01/12/2018| |2 | Cake | 02/01/2018| |3 | TV | 11/02/2017|

浏览 0提问于2018-03-08得票数 0

1回答

删除所有相同值(例如0)的pyspark列的最快方法是什么？

python、performance、filter、pyspark

我有一个巨大的pyspark dataframe，我需要从dataframe中删除所有全为0的列。 columns = list(masterdata_raw.schema.names) zero_col = [] for col_ in columns: col_max = masterdata_raw.agg({col_: "max"}).collect()[0] col_min = masterdata_raw.agg({col_: "min"}).collect()[0] if col_max == 0 and col_min =

浏览 0提问于2017-05-03得票数 1

1回答

如何在PySpark中转换特定列

pyspark、pivot、transpose

我有以下PySpark数据： year week date time value 2020 1 20201203 2:00 - 2:15 23.9 2020 1 20201203 2:15 - 2:30 45.87 2020 1 20201203 2:30 - 2:45 87.76 2020 1 20201203 2:45 - 3:00 12.87 我想转换时间和值列。预期的产出应是： year week date 2:00 - 2:15 2:1

浏览 3提问于2022-11-16得票数 0

2回答

一次聚合一个dataframe的所有列

r、apache-spark、pyspark、aggregate-functions

我希望在一个列上分组一个dataframe，然后在所有列上应用一个聚合函数。例如，我有一个带有10列的df。我希望对第一列"1“进行分组，然后对其余的所有列(都是数字列)应用一个聚合函数'sum‘。它的R等价值是summarise_all。在R. df = df%>%group_by(column_one)%>%summarise_all(funs(sum)) 我不想手动在pyspark中的聚合命令中输入列，因为dataframe中的列数将是动态的。

浏览 1提问于2019-05-22得票数 4

回答已采纳

1回答

根据相关的2行或更多行生成新列值

pyspark

我有一个usecase，其中我想生成新的列值，请考虑如下所示的pyspark数据框架： User | Product | Event | ... ---------------------------------------- ram apple viewed ram apple carted bill samsung viewed bill samsung carted bill samsung bought 我希望使用PySpark处理上面的数据

浏览 8提问于2020-10-23得票数 1

回答已采纳