Pyspark使用窗口函数和我自己的函数

文章/答案/技术大牛

发布

1回答

、、、

我有一个Pandas的代码，它计算出x窗口上线性回归的R2。参见我的代码： def lr_r2_Sklearn(data): X = pd.Series(list(range(0,len(data),1return(regressor.score(X,Y)) r2_rolling = df[['value']].rolling(300).agg([lr_r2_Sklearn]) 我做了一个大小为300的滚动，并计算每个<em

浏览 29提问于2020-06-26得票数 0

回答已采纳

1回答

如何在PySpark 2.1.0中定义事件时间窗口上的UDAF

、、、、

我正在编写一个Python应用程序，它在一个值序列上滑动一个窗口，每个值都有一个时间戳。我想对滑动窗口中的值应用一个函数，以便根据图中所示的N个最新值计算分数。我们已经使用Python库实现了该函数，以利用GPU。我发现Apache Spark 2.0附带了结构化流，它支持事件时间的窗口操作。如果您希望从.csv文件中读取有限的记录序列，并希望对这种滑动窗口中的记录进行

浏览 21提问于2017-03-12得票数 2

回答已采纳

1回答

CakePhp分页和我自己的函数

我的模特有很大的作用。它返回的朋友名单与他们的照片和个人资料。体内有两个“发现”环，所以这并不容易。是否可以用我的方法创建分页？在一个find (或分页)函数中获取此数据是不可能的。有什么想法吗？

浏览 0提问于2012-09-03得票数 1

1回答

使用窗口函数的pyspark

、、、

我有一个数据帧，其中包含表示用户对特定电影的评级实例的行。每部电影可以由多个用户在多个类别中进行评分。这是我使用movie_lens数据创建的结果数据帧。movie_id是电影的唯一id，年份是用户对电影进行评分的年份，类别是电影12个类别中的一个。部分文件<code>C1</code> 我想找出每个类别中每十年收视率最高的电影(计算每个类别中每十年

浏览 16提问于2019-03-26得票数 0

回答已采纳

1回答

pyspark中的first_value窗口函数

、、、

我正在使用pyspark 1.5从Hive表中获取数据，并尝试使用窗口函数。鉴于pyspark不支持UserDefinedAggregateFunctions (UDAF)，有没有办法实现这一点？

浏览 4提问于2016-02-02得票数 6

回答已采纳

2回答

要应用于PySpark中的窗口的用户定义函数？

、、、、

我正在尝试将用户定义的函数应用于PySpark中的窗口。我读到过UDAF可能是可行的，但我找不到任何具体的东西。举个例子(取自此处：，并针对PySpark进行了修改)：from pyspark.sql import SparkSessionfrom pys

浏览 0提问于2018-01-09得票数 11

回答已采纳

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

、

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

1回答

PySpark:使用窗口函数卷起数据

、、、、

浏览 2提问于2019-11-07得票数 0

回答已采纳

3回答

如何使用pyspark* dataframe窗口函数*

、、、

我想获得一个数据帧，它将具有最新的版本和最新的date.The，首先筛选条件将是最新的版本，然后是最新的日期结果数据帧应该如下所示 ? 我使用窗口函数来实现这一点。我已经写了下面的代码。.drop(F.col("maxVersion")) \ .drop(F.col("maxDt")) 我不确定我错过了哪里，我只得到一个id为100的输出

浏览 38提问于2020-11-06得票数 1

回答已采纳

1回答

TypeError：'Column‘对象是不可调用的--使用窗口函数

、、

#尝试在PySpark中使用窗口函数Join_transaciones3

浏览 10提问于2022-11-14得票数 0

3回答

使用指针和我自己的函数反转字符串

、、、、

我有一个作业，我是新来的C。我会附上作业和我的代码。基本上，问题是我的程序不起作用，我不知道出了什么问题。具有指针(指针算法而不是arrayi)，但使用自己的用户定义函数。编写一个逆转用户输入的字符串(char数组)的程序。

浏览 14提问于2021-12-28得票数 0

1回答

根据组中的其他项为组中的项分配值

、、、、

我试图根据输入字符串是否位于组中另一个字符串的开头为组中的每一行分配一个值。例如，"hello“位于"hello world”的开头，因此这两种类型的值都被指定为“在一起”。“再见”没有分配“在一起”值，因为它不在组中另一个字符串的开头。bonjour madame')]以下是输入：

浏览 5提问于2019-06-25得票数 0

回答已采纳

1回答

PySpark窗口函数的改进

、、、

我需要替换以前的记录值，所以我使用窗口函数实现了这一点，但我想提高性能。你能告诉我有没有其他的方法吗？from pyspark.sql import SparkSession, Window, DataFramefrom pyspark.sql

浏览 9提问于2021-02-02得票数 1

回答已采纳

1回答

如何获取row_number is pyspark数据帧

、、、

为了排名，我需要让row_number是一个pyspark数据帧。我看到在pyspark的窗口函数中有row_number函数，但这是使用HiveContext所必需的。我尝试用HiveContext替换sqlContext self.sc = pyspark.SparkContext() #self.sqlContext = py

浏览 0提问于2016-10-30得票数 2

1回答

用窗口函数替换火花放电中的NA

、、、

我想用基于分区列的注解替换NA，在pyspark中使用窗口函数吗？所需产出： 

浏览 4提问于2020-02-26得票数 1

回答已采纳

2回答

用于多个数据文件的PySpark* OOM*

、

我希望与PySpark并行处理几个类似大小(100 MB)的依赖于i的csv文件。、时间戳、价格 logData = spark.read.csv("TypeA.csv", header=False,schema然而，我在扩展这项工作时遇到了两个问题： I试图将窗口函数的数量增加到50个作业OOMs。不知道为什么在这种

浏览 3提问于2020-08-23得票数 0

1回答

pySpark，聚合复函数(连续事件的差异)

、、、

我有一个DataFrame (df)，它的列是userid (用户id)、day (日期)。userid day 1 2016-09-201 2016-09-25 imp

浏览 4提问于2016-12-10得票数 1

1回答

在使用pyspark模块中的函数时，峰度是否过大？

、、

当使用pyspark模块pyspark.sql.functions.kurtosis(col)中的峰度函数时，结果是否超过正态分布？即。是否已经从峰度中减去3以得到k-3？或者我们必须自己计算超出的部分？

浏览 17提问于2020-03-26得票数 1

回答已采纳

1回答

Pyspark pyspark.sql.functions行为怪异

、、、

当我们有超过3个节点来分发数据时，pyspark.sql.functions下的"last“函数在spark上返回不一致的结果。from pyspark.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last("v1&

浏览 1提问于2017-02-02得票数 1

1回答

窗口函数(滞后，领导)实现在火花放电？

、、、、

下面是附加的the代码.我试着用窗口函数将它转换为pyspark，这也是附加的。PARTITION BY barcode order by barcode,eventdate,transactionid) end as next_action Tgt_df = Tgt_df.withColumn(

浏览 0提问于2019-02-21得票数 1

回答已采纳

点击加载更多