在Pyspark中,我需要按ID分组并创建四个新列(min,max,std,ave)。 from pyspark.sql import functions as F
from pyspark.sql.window import Window
w = (Window.orderBy(F.col("Date").cast('long')).rowsBetween(-4, 0))
df = df.groupby("ID") \
.withColumn('hr1_ave', F.avg("rpm").over(w))
我有下面的代码片段,用于创建一个图形。我想修改它以在PySpark中工作,但不知道如何继续。问题是我不能迭代PySpark中的一个列,并且我已经尝试将它变成一个函数,但没有成功。
上下文: DataFrame有一个名为City的列,它只是作为字符串的城市名称
cities = [i.City for i in df.select('City').distinct().collect()]
stack = []
for city in cities:
df = sqlContext.sql( 'SELECT Complaint Type, COUNT(*
我有以下SQL查询,我想将其转换为pyspark。我想使用两个列pp和gender,并在pyspark中执行以下操作 %sql
SELECT pp
, SUM(CASE WHEN Gender = 'M'
THEN 1.0 ELSE 0.0 END) /
COUNT(1) AS gender_score
, count(1) AS total
FROM df
WHERE gender in ('M', 'F')
GROUP BY pp
HAVING
我试图将四列(QBR、码、触地和截取)连接或组合到一个列中,并将它们按球衣编号分组,将sql函数作为pyspark中的f。下面列出了我试图使用的编码、实际数据和预期的数据结果。
import pyspark.sql.functions as f
from pyspark.sql.functions import concat, lit, col
df = df.groupby('Jersey Number).withColumn("joined", f.concat(f.col('QBR'), f.lit(','), f.col('
我来自R和到PySpark,因为它的出色的火花处理,我正在努力从一个上下文映射到另一个特定的概念。
尤其是,假设我拥有如下数据集
x | y
--+--
a | 5
a | 8
a | 7
b | 1
我希望添加一个列,其中包含每个x值的行数,如下所示:
x | y | n
--+---+---
a | 5 | 3
a | 8 | 3
a | 7 | 3
b | 1 | 1
在dplyr中,我只想说:
import(tidyverse)
df <- read_csv("...")
df %>%
group_by(x) %>%
mutate(n
我对pyspark还是个新手。我有10k文本数据集。我使用Minhash lsh创建了一个Jaccard距离。例如,我得到的输出
col1 col2 dist
A B 0.77
B C 0.56
C A 0.88
我想把这个转换成NxN矩阵格式。
A B C
A 0 0.77 0.88
B 0.77 0 0.56
C 0.88 0.56 0
有没有办法使用pyspark来创建它。我很感谢你的建议。
我正试图在中找到列中的所有字符串。
输入df:
id val
1 "book bike car"
15 "car TV bike"
我需要输出df,比如:( word_index值是自动增量索引,"val_new“中的值顺序是随机的)。
val_new word_index
TV 1
car 2
bike 3
book 4
我的代码:
import pyspark.sql.functions as F
from pyspark.sql.types import ArrayType, StringT
我有以下示例数据集:
groupby prevoius current
A 1 1
A 0 1
A 0 0
A 1 0
A 1 1
A 0 1
我想通过将"previous“和"current”列相加来创建下表。
previous_total current_total
3 4
我已经尝试了groupby和.agg的所有组合,试图实现上表,但无法成功
我查找了任何类似于熊猫df.groupby(upc)['store'].unique()的火花放电的参考资料,其中df是熊猫中的任何数据。
请使用这段代码在Pyspark中创建数据帧。
from pyspark.sql.types import StructType,StructField, StringType, IntegerType
from pyspark.sql import *
from datetime import date
import pyspark.sql.functions as F
spark = SparkSession.builder.appNa
我希望维护日期排序顺序,对多个列使用collect_list,所有列都具有相同的日期顺序。我需要它们在相同的数据中,这样我就可以利用它们来创建一个时间序列模型输入。下面是“train_data”的示例:
我使用一个带有PartitionBy的窗口来确保tuning_evnt_start_dt对每个Syscode_Stn进行排序。我可以用以下代码创建一个列:
from pyspark.sql import functions as F
from pyspark.sql import Window
w = Window.partitionBy('Syscode_Stn'
我在PySpark中工作,并将一个事务表作为Spark DataFrame导入,如下所示: User_ID Date Product_Name
-------- ------ -------------
A 2019-11-30. Product 1
B 2019-10-20 Product 2
C 2019-10-01 Product 1
A 2019-12-01 Product 1 我正在尝试做的是创建一个结果表,对于每个唯一的User_I
我有一个usecase,其中我想生成新的列值,请考虑如下所示的pyspark数据框架:
User | Product | Event | ...
----------------------------------------
ram apple viewed
ram apple carted
bill samsung viewed
bill samsung carted
bill samsung bought
我希望使用PySpark处理上面的数据