window.partitionby - 腾讯云开发者社区

apache-spark

我有一个非常简单的数据框架： +--+------+ |Id|Amount| +--+------+ |0 |3.47 | |1 |-3.47 | |2 |3.47 | |3 |3.47 | |4 |2.01 | |5 |-2.01 | |6 |-2.01 | |7 |7.65 | |8 |7.65 | +--+------+ 我想匹配第0行和第1行，第4行和第5行，返回第2行和第3行。有几种解决方案，返回第0行和第2行也可以。一般的想法是，它们应该2乘2匹配，剩余的返回。如果每一行都有匹配，它应该不返回任何内容，并且应该返回所有不能以这种方式配对的行。你知道怎么做吗？预期结

浏览 6提问于2021-02-13得票数 0

回答已采纳

1回答

Pyspark从组中获得所有最高值，并评估dupes。

apache-spark、pyspark、apache-spark-sql

考虑一下这个数据： +----------+------+--+ | person| style| n| +----------+------+--+ | P1| A| 1| | P2| A| 1| | P2| B| 2| | P3| A| 1| | P3| B| 2| | P3| C| 2| | P4| A| 2| | P4| B| 2| +----------+------+--+ 目标是确定每个人喜欢的风格。

浏览 3提问于2021-03-16得票数 1

回答已采纳

2回答

分组依据独立于多个列

hive、pyspark、pyspark-sql、pyspark-dataframes

我有一个数据帧，其中有2列。 dataframe 1:- product | act a | A b | B c | C d | D b | C a | D 我想要如下输出： product act product_count act_count2 a A 2 1 b B 2 1 c C 1

浏览 27提问于2019-09-24得票数 0

回答已采纳

1回答

如何循环使用dataset创建摘要数据集

apache-spark、spark-dataframe

我刚刚开始学习和使用星火，目前面临一个问题。任何建议或暗示都将不胜感激。基本上，我有一个数据集，它包含不同用户的各种事件，比如AppLaunch、GameStart、GameEnd等等，我想要创建每个用户每次启动应用程序时的操作摘要。例如:我有以下数据集： UserId | Event Type | Time | GameType | Event Id| 11111 | AppLauch | 11:01:53| null | 101 | 11111 | GameStart | 11:01:59| Puzzle | 102 | 1111

浏览 0提问于2018-02-07得票数 1

回答已采纳

2回答

如何在Spark数据帧中获取窗口中的最大row_number

dataframe、apache-spark、pyspark、apache-spark-sql

我有一个数据帧，如下所示，我使用下面提到的代码获取它 +---+----------+--------+----------+ |EK |Value |date |row_number| +---+----------+--------+----------+ |5 |100 |1/1/2020|1 | |5 |150 |1/3/2020|2 | |5 |175 |1/5/2020|3 | |62 |200 |2/9/1999|1 | |62 |21

浏览 39提问于2021-06-25得票数 0

回答已采纳

1回答

PySpark:查找项目是否在前5名受欢迎

python、dataframe、apache-spark、pyspark、apache-spark-sql

我有这样的销售清单(pySpark)： +---------+----------+ |productId| date| +---------+----------+ | 868|2020-11-01| | 878|2020-11-01| | 878|2020-11-01| | 913|2020-11-01| | 746|2020-11-01| | 878|2020-11-01| | 657|2020-11-02| | 746|2020-11-02|

浏览 2提问于2020-11-26得票数 0

回答已采纳

2回答

如何计算spark中组的百分比？

apache-spark、apache-spark-sql

我在表单中有数据： FUND|BROKER|QTY F1|B1|10 F1|B1|50 F1|B2|20 F1|B3|20 当我按基金和经纪人对其进行分组时，我希望在组级别上将数量计算为总数的百分比。就像这样， FUND|BROKER|QTY %|QTY EXPLANATION F1|B1|60%|(10+50)/(10+50+20+20) F1|B2|20%|(20)/(10+50+20+20) F1|B2|20%|(20)/(10+50+20+20) 或者当我按基金分组时，就像这样 FUND|BROKER|QTY %|QTY EXPLANATION F1|B1|16.66|(10)/(10

浏览 50提问于2019-07-23得票数 0

回答已采纳

1回答

24小时滚动计数器时间戳电火花

apache-spark、pyspark、apache-spark-sql

以下是输入的数据： id,timestamp 1,1/10/18 17:57 1,1/12/18 13:29 1,2/1/18 11:04 1,2/14/18 10:53 1,3/7/18 11:16 1,3/19/18 8:45 1,3/19/18 12:44 1,3/30/18 23:45 1,4/15/18 19:54 1,4/15/18 19:54 1,4/15/18 19:54 1,7/9/18 19:26 1,7/9/18 19:26 1,7/10/18 6:03 1,7/10/18 9:03 如果上一行在24小时内时间戳内，我需要创建另一列“计数器”，以增

浏览 9提问于2021-06-07得票数 0

回答已采纳

3回答

如何在scala中的PartitionBy窗口中应用多列

apache-spark

val partitionsColumns = "idnum,monthnum" val partitionsColumnsList = partitionsColumns.split(",").toList val loc = "/data/omega/published/invoice" val df = sqlContext.read.parquet(loc) val windowFunction = Window.partitionBy (partitionsColumnsList:_*).orderBy(df("effecti

浏览 0提问于2019-06-17得票数 2

回答已采纳

2回答

前一行值为负值的rangeBetween

python、apache-spark、pyspark、apache-spark-sql

我想使用一个窗口来计算当前结果之前最后5个结果的平均值。例如，如果我有一个带有结果的数据，mean_last_5将如下所示： Result Mean_last_5 1. 4 NaN 2. 2 NaN 3. 6 NaN 4. 3 NaN 5. 2 NaN 6. 6 3.4 7. 3 3.8 第6行将计算为：(4+2+6+3+2)/5 = 3.4。所以用熊猫的术语来说，我会有一个滚动的窗口有了PySpark，我就想不出怎么做了。当前代码： def mean_last_5

浏览 0提问于2019-05-24得票数 1

1回答

根据排序从组中获取列中的前两个值

python、dataframe、apache-spark、pyspark

我正试图得到在这个列表中出现的前两个计数，在最早出现的log_date之前。 state count log_date GU 7402 2021-07-19 GU 7402 2021-07-18 GU 7402 2021-07-17 GU 7402 2021-07-16 GU 7397 2021-07-15 GU 7397 2021-07-14 GU 7397 2021-07-13 GU 7402 2021-07-12 GU 7402 2021

浏览 2提问于2021-07-19得票数 2

回答已采纳

1回答

scala中多列的groupBy Id和获取多个记录

scala、apache-spark

我有火花数据如下所示。 val df = Seq(("a",1,1400),("a",1,1250),("a",2,1200),("a",4,1250),("a",4,1200),("a",4,1100),("b",2,2500),("b",2,1250),("b",2,500),("b",4,250),("b",4,200),("b",4,100),("b",4,100),("b

浏览 4提问于2021-11-23得票数 0

回答已采纳

1回答

如何使用spark中的窗口函数过滤数据

scala、apache-spark、spark-dataframe、window-functions

我有以下数据： rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 c 现在，我想以这样一种方式过滤数据，即我可以删除第6行和第7行。对于特定的uid，我希望在代码中只保留一行值为'c‘的行。因此，预期的数据应该是： rowid uid time

浏览 3提问于2016-08-10得票数 4

回答已采纳

1回答

如何在不影响索引栏的情况下，计算星火数据帧中记录的出现频率，并将其作为新列添加到数据帧中？

indexing、pyspark、frequency

浏览 8提问于2021-09-30得票数 0

回答已采纳

1回答

如何使用窗口函数选择行？

scala、apache-spark、apache-spark-sql

我在星火中有以下DataFrame df： +------------+---------+-----------+ |OrderID | Type| Qty| +------------+---------+-----------+ | 571936| 62800| 1| | 571936| 62800| 1| | 571936| 62802| 3| | 661455| 72800| 1| | 661455| 7

浏览 0提问于2019-06-20得票数 0

回答已采纳

2回答

PySpark中的滚动相关性和每个组的平均值(最后3个)

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我有一个这样的数据帧 data = [(("ID1", 1, 5)), (("ID1", 2, 6)), (("ID1", 3, 7)), (("ID1", 4, 4)), (("ID1", 5, 2)), (("ID1", 6, 2)), (("ID2", 1, 4)), (("ID2", 2, 6)), (("ID2", 3, 1)), (("ID2", 4, 1)), (("ID2", 5, 4)

浏览 46提问于2019-12-24得票数 1

回答已采纳

1回答

获取一个列中的下一个非零值和另一个列中的和的行数

dataframe、pyspark、apache-spark-sql、window、window-functions

我有下表： ----------------------------------------------------------------- | sku | distribution center | leadtime | ind_abt | date | ----------------------------------------------------------------- | 1234 | New York | 10 | 0 | 2022-01-01 | | 1234 | New York

浏览 8提问于2022-03-24得票数 1

回答已采纳

2回答

Group By，Rank和aggregate spark数据帧使用pyspark

apache-spark、pyspark、spark-dataframe

我有一个数据帧，看起来像这样： A B C --------------- A1 B1 0.8 A1 B2 0.55 A1 B3 0.43 A2 B1 0.7 A2 B2 0.5 A2 B3 0.5 A3 B1 0.2 A3 B2 0.3 A3 B3 0.4 如何将列'C‘转换为列A的相对排名(更高的分数->更好的排名)？预期输出： A B Rank --------------- A1 B1 1 A1 B2 2 A1 B3 3

浏览 7提问于2017-01-15得票数 24

回答已采纳

2回答

在星火中为rowsBetween和rangeBetween指定默认值

apache-spark、apache-spark-sql、apache-spark-1.6

我有个问题是关于SparkDataframe1.6的窗口操作。假设我有下表： id|MONTH |number 1 201703 2 1 201704 3 1 201705 7 1 201706 6 目前，我正在使用rowsBetween函数： val window = Window.partitionBy("id") .orderBy(asc("MONTH")) .rowsBetween(-2, 0) randomDF.withColumn("counter", sum(col("number"))

浏览 11提问于2018-02-15得票数 1

回答已采纳

2回答

为给定的一组列计算不同的列值

scala、dataframe、apache-spark

想象一个数据文件，如下所示： Id Date FileType 1 2020JAN01 HTML 1 2020JAN01 TXT 2 2020FEB01 HTML 2 2020FEB02 HTML 我如何创建一个列，它对给定的"Id“和”日期“集计算"FileType”的不同值(比如FileType)。输出应该如下所示。 Id Date FileType TotalTypes 1 2020JAN01 HTML 2 1 2020JAN01 TXT

浏览 2提问于2020-08-24得票数 0

回答已采纳

1回答

如何在电火花中为循环或插曲编写

python、loops、for-loop、pyspark、apache-spark-sql

我有一个dataframe，我试图在上面写一个for循环。 |ID | from_dt | To_dt |row_number|diff|negetive_or_not| +----------+----------+----------+----------+----+---------------+ |11111|2020-07-30|2020-07-31| 1| -2| 0| |11111|2020-08-02|2020-08-11| 2| 4| 1| |11111|2020-08-07

浏览 2提问于2020-09-30得票数 1

回答已采纳

1回答

如何扫描一列以在Pyspark中获得新列

apache-spark、pyspark

我有一个DataFrame，它有两列: sendtime和charge_state，如果charge_state从"off“改为"on"，一个新的充电周期就开始了。现在我想标记每个充电周期给我输出。输入： +-------------------+------------+ | sendtime|charge_state| +-------------------+------------+ |2018-03-02 08:00:00| on| ... |2018-03-02 09:42:32| on| |201

浏览 0提问于2018-06-04得票数 0

回答已采纳

1回答

根据带有条件的时间戳获取数据帧中的最新记录

apache-spark、apache-spark-sql、spark-dataframe

我的问题标题可能不准确，但我希望我能解释我的问题，所以我有如下数据框架 DataPartition_1|^|PartitionYear_1|^|TimeStamp|^|OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber_1|^|FFAction_1 SelfSourcedPublic|^|2001|^|1510044629598|^|4295858941|^|5|^|21|^|2|^|I|!| SelfSourcedPublic|^|2002|^|1510044629599|^|4295858941|^|1|^|2

浏览 2提问于2017-11-13得票数 0

回答已采纳

2回答

scala中使用多列的Spark数据帧排序

scala、apache-spark

在Spark 1.6中，基本上我希望应用分区，然后使用两列进行排序，这样我就可以对每个分区应用等级逻辑 val str = "insertdatetime,a_load_dt" val orderByList = str.split(",") val ptr = "memberidnum" val partitionsColumnsList = ptr.split(",").toList val landingDF = hc.sql("""select memberidnum,insertdate

浏览 38提问于2019-09-26得票数 0

1回答

将一列转换为Pyspark/Python中的多列

apache-spark、pyspark、group-by、apache-spark-sql、pivot

我在这一行中发现了类似的情况，但他使用的是SQL server，而不是pyspark/python：。我有一个数据集如下： ID Date Class 1 2021/01/01 math, english 1 2021/01/02 math, english 1 2021/01/03 chinese 1 2021/01/04 math, chemistry 1 2021/01/05 math, english 1 2

浏览 2提问于2021-02-12得票数 0

回答已采纳

1回答

火花窗口-如何比较数据帧的第一行和第n行？

scala、apache-spark

我有一个数据帧，如下所示。我必须将claim_typ为'PD‘的行的排名作为’PD‘，并与当前行的排名进行差异，并将其添加为新列。源数据帧： Id svc_dt clm_typ rank 48115882 20180209 RV 1 48115882 20180209 RJ 2 48115882 20180216 RJ 3 48115882 20180302 RJ 4 48115882 20180402 PD 5 48115882 20180502 R

浏览 23提问于2019-05-21得票数 2

回答已采纳

1回答

按A对pyspark dataframe进行分组，按B排序，然后选择C中的前n个不同条目

python、apache-spark、pyspark、apache-spark-sql

我想按列A对给定的数据帧进行分组。然后，应按列B对每个组进行排序。从每个已排序的组中，我希望选择n行，即那些在列C中包含第一个n distinct值的行。这样做的操作链总体上应该像过滤器一样，即原始数据帧的所有列都应该包括在输出数据帧中。给定df df = spark.createDataFrame([ # FIRST GROUP (5 distinct C) # rows share [A, C]-combination [1, 1, 2, 1], [1, 2, 2, 2], # rows share [A, B]-combination [

浏览 29提问于2021-03-13得票数 0

1回答

处理排名中的关系: Pyspark

apache-spark、pyspark、apache-spark-sql

我有一个下面这样的数据框架。 +---+-------+-------+ |ayy| artist|numbers| +---+-------+-------+ | a| Monet| 10000| | a| Dali| 10000| | a|Gauguin| 10000| | b| Monet| 10000| | b| Dali| 10000| | b|Gauguin| 10000| +---+-------+-------+ 我想根据他们的“数字”选择一个“艺术家”，但我想确保当“数字”之间有联系时，我会随机选择。我实现了下面的代码。 w = Win

浏览 24提问于2021-05-11得票数 1

回答已采纳

1回答

Spark:自定义窗口函数

apache-spark

我有一张订单表。对于每个订单，都有不同数量的产品。示例： +---------------+-------------+--------+ |order_id | product_id|quantity| +---------------+-------------+--------+ |A |X | 5| |A |Y | 1| |A |Z | 3| 然后，客户可以决定退回产品，并且该产品将在同一订

浏览 21提问于2020-06-19得票数 0

1回答

如何在spark scala中使用子查询创建列表达式

scala、apache-spark、apache-spark-sql

给定任何df，我想为df计算另一个名为"has_duplicates“的列，然后添加一个包含布尔值的列，以确定每一行是否是唯一的。示例输入df： val df = Seq((1, 2), (2, 5), (1, 7), (1, 2), (2, 5)).toDF("A", "B") 给定一个输入columns: Seq[String]，我知道如何获取每行的计数： val countsDf = df.withColumn("count", count("*").over(Window.partitionBy(columns.m

浏览 0提问于2020-08-04得票数 0

2回答

如何将字符串数组传递给PartitionBy

apache-spark

我根据列mynewmeancol2的值对数据集进行分组，如下所示： dF.select("col0","col1","col2","col3","col4").where("col1> mynewmeancol2") .withColumn("avgCol1", avg("col1").over(Window.partitionBy("col0", "col1"))) 我想知道如何将列的数组 NAMES (即字符串的列表

浏览 4提问于2021-04-22得票数 0

1回答

根据id列保持顺序将星火DataFrame拆分成两个DataFrames (70%和30% )

apache-spark、pyspark、apache-spark-2.0

我有一个火花数据，就像 id start_time feature 1 01-01-2018 3.567 1 01-02-2018 4.454 1 01-03-2018 6.455 2 01-02-2018 343.4 2 01-08-2018 45.4 3 02-04-2018 43.56 3 02-07-2018 34.56 3 03-07-2018 23.6 我希望能够根据id列.So将其划分为两个数据格式，我应该按id列进行分组，按start_time进行排序，并通过保留order.The结果将70%的行放入一个da

浏览 0提问于2018-10-23得票数 3

1回答

scala星星之火中窗口秩函数中不可序列化的任务

scala、apache-spark、hive

当我从prod运行我的代码时，当我试图从单元测试用例调用时，不会遇到任何不可序列化的问题。I从下面的代码中获取不可序列化的任务。不知道问题是什么，以及为什么这种奇怪的行为。有人能在这个或任何更好的可串行化解决方案上帮助从蜂巢表中获取最新的行吗？ val distinctBy = Window.partitionBy("id").orderBy(desc("updated_at")); val uniqueSellerDf = enrichedDf.withColumn("rank", rank().over(distinctBy))

浏览 2提问于2022-08-05得票数 0

2回答

用前一个和下一个非缺失值填充行缺失值

pyspark、apache-spark-sql、pyspark-dataframes

我知道你可以通过上一个函数和一个窗口函数的组合，用next非缺失值向前/向后填充缺失值。但我有一个数据看起来像这样： Area,Date,Population A, 1/1/2000, 10000 A, 2/1/2000, A, 3/1/2000, A, 4/1/2000, 10030 A, 5/1/2000, 在这个例子中，对于五月份的人口，我喜欢填写10030，这很容易。但是对于2月和3月，我想填写的值是10000和10030的平均值，而不是10000或10030。你知道如何实现它吗？谢谢,

浏览 42提问于2020-08-20得票数 0

2回答

如何在编写之前从Spark中删除小分区

scala、dataframe、apache-spark、apache-spark-sql

我根据列中的值对数据文件进行如下的分区： val dfPartitioned = df.repartition(col("my_col")) 我想从小于N行的dataframe中删除分区。在写到磁盘之前，我该怎么做？或者我必须在分区之前过滤掉我不想要的那些？

浏览 4提问于2020-07-15得票数 0

回答已采纳

1回答

在scala spark数据帧中提取时间间隔

scala、apache-spark、dataframe、apache-spark-sql

我正在尝试从scala和spark中提取基于时间序列的组合数据间隔我在一个数据框中有以下数据： Id | State | StartTime | EndTime ---+-------+---------------------+-------------------- 1 | R | 2019-01-01T03:00:00 | 2019-01-01T11:30:00 1 | R | 2019-01-01T11:30:00 | 2019-01-01T15:00:00 1 | R | 2019-01-01T15:00:00 | 2019-01

浏览 24提问于2019-03-09得票数 1

回答已采纳

1回答

星火scala中的分区函数

scala、apache-spark、apache-spark-sql

DF： ID col1 . .....coln.... Date 1 1991-01-11 11:03:46.0 1 1991-01-11 11:03:46.0 1 1991-02-22 12:05:58.0 1 1991-02-22 12:05:58.0 1 1991-02-22 12:05:58.0 我正在创建一个新的列“标识”，以找到(ID，日期)的分区，并通

浏览 0提问于2018-07-05得票数 0

回答已采纳

1回答

在基于SUM的聚合中，使用Scala选择Apache Spark Dataframe中的特定行值

scala、apache-spark、hadoop

我想在下面的数据集中聚合为SUM(数量)列，并基于SUM，选择相关的行值，如下所述：输入： val df = Seq( ("Acc1","111","1111","Sec1",-4000), ("Acc2","222","2222","Sec1",2000), ("Acc3","333","3333","Sec1",1000), ("Acc4","444"

浏览 8提问于2019-11-22得票数 0

1回答

如何枚举数据帧中的行？Spark Scala

scala、apache-spark、dataframe

我有一个这样的数据帧(renderDF)： +------+---+-------+ | uid|sid|renders| +------+---+-------+ | david| 0| 0| |rachel| 1| 0| |rachel| 3| 0| |rachel| 2| 0| | pep| 2| 0| | pep| 0| 1| | pep| 1| 1| |rachel| 0| 1| | rick| 1| 1| | ross| 0| 3| | ri

浏览 1提问于2016-11-02得票数 2

1回答

PySpark:使用RDD并行化的输出和原始的RDD执行其他操作

python、apache-spark、pyspark、rdd

假设我有一个RDD。在这个RDD上，我执行一些输出输出的操作。现在，我需要这个输出和(原始的RDD )来执行其他一些操作。怎么做呢？这是我的代码： rdd = sc.parallelize(input) rdd1 = rdd.map(...) ... output1 = rdd1.collect() # output I need output2 = rdd.map(some operations using output1)

浏览 1提问于2017-08-28得票数 0

1回答

Scala火花，具有增量新列的数组

scala、apache-spark

星星之火正在从cosmosDB中读取，其中包含以下记录： { "answers": [ { "answer": "2005-01-01 00:00", "answerDt": "2022-07-01CEST08:07", ..., "id": {uuid} } 以及获取这些答案并创建DF的代码，其中每一行都是来自该数组的新记录： dataDF .select( col("id").as(&#

浏览 2提问于2022-08-01得票数 0

回答已采纳

2回答

Scala Spark使用窗口函数查找最大值

scala、apache-spark、apache-spark-sql

我有一个数据集，看起来像这样： +------------------------|-----+ | timestamp| zone| +------------------------+-----+ | 2019-01-01 00:05:00 | A| | 2019-01-01 00:05:00 | A| | 2019-01-01 00:05:00 | B| | 2019-01-01 01:05:00 | C| | 2019-01-01 02:05:00 | B| | 2019-01-01 02:

浏览 54提问于2020-10-15得票数 2

回答已采纳

1回答

.rowsBetween(Window.unboundedPreceding，Window.unboundedFollowing)错误火花Scala

scala、apache-spark、window、partition-by

你好，我正在尝试将每个窗口的最后一个值扩展到列count的窗口的其余部分，以便创建一个标志，以识别注册表是否是窗口的最后一个值。我试过这种方法，但没有起作用。样本DF： val df_197 = Seq [(Int, Int, Int, Int)]((1,1,7,10),(1,10,4,300),(1,3,14,50),(1,20,24,70),(1,30,12,90),(2,10,4,900),(2,25,30,40),(2,15,21,60),(2,5,10,80)).toDF("policyId","FECMVTO","aux","

浏览 1提问于2019-09-28得票数 1

回答已采纳

1回答

根据Apache火花中的条件为单击流数据生成会话id。

scala、apache-spark

如何通过使用具有以下两种条件的Spark(Scala)数据来为单击流数据生成唯一的会话id？会话在不活动30分钟后到期(意味着30分钟内没有单击流数据) 会议持续活动2小时。2小时后，续订会议。输入： UserId | Click Time ----------------------------- U1 | 2019-01-01T11:00:00Z U1 | 2019-01-01T11:15:00Z U1 | 2019-01-01T12:00:00Z U1 | 2019-01-01T12:20:00Z U1 | 2019-01

浏览 2提问于2019-05-24得票数 2

1回答

GroupBy和Sum，如果大于零，则标记行True

apache-spark、pyspark、apache-spark-sql、window-functions

假设我有一个如下所示的数据集。我想按ID分组，如果所有值都为空，或者求和后不大于0，则创建一个新列，将每行标记为True或False。理想的数据集在下面。 ID VALUE 1 6.00 1 5.00 2 NULL 2 NULL 2 NULL 3 3.00 ID VALUE ALL_NULL 1 6.00 False 1 5.00 False 2 NULL True 2 NULL True 2 NULL True 3 3.00 False 这是我到目前为止尝试过的方法。 df

浏览 23提问于2021-05-06得票数 0

回答已采纳

1回答

窗口上的行数合计

pyspark、apache-spark-sql

在Pyspark中，我试图对数据帧中的所有行执行计数。在Hive上，我可以使用以下命令执行它： count(1) OVER () as biggest_id 然而，在pyspark上，我不确定如何执行它。这是我尝试过的： df_new = ( df.withColumn('biggest_id', F.count(F.lit(1)).over()) ) 通常，over参数需要一个窗口语句，但我在如何做到这一点上并不成功。

浏览 18提问于2020-08-19得票数 0

回答已采纳

2回答

Spark SQL中的多列分区

apache-spark、apache-spark-sql、window-functions

使用Spark SQL的窗口函数，我需要按多列分区来运行我的数据查询，如下所示： val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) 我目前还没有测试环境(正在进行设置)，但作为一个快速的问题，这是目前支持作为Spark SQL的窗口函数的一部分，或者这不会工作？

浏览 1提问于2016-06-14得票数 11

回答已采纳

2回答

Spark创建包含某些其他列中相应值的最小和最大值的新列

scala、apache-spark、apache-spark-sql

假设我有一个专栏 import spark.implicits._ val simpleData = Seq(("James", "Sales", 3000), ("Michael", "Sales", 4600), ("Robert", "Sales", 4100), ("Maria", "Finance", 3000), ("James", "Sal

浏览 45提问于2021-04-22得票数 2

回答已采纳

1回答

火花scala中基于条件的累积求和方法

scala、apache-spark、apache-spark-sql

我有下面的数据，final_column是我想要得到的确切输出。我正在尝试进行flag的累积和，如果flag为0，则希望休息，然后将值设置为0，如下所示 cola date flag final_column a 2021-10-01 0 0 a 2021-10-02 1 1 a 2021-10-03 1 2 a 2021-10-04 0 0 a 2021-10-05 0 0 a 2021-10-06 0 0 a 2021-10-07 1 1 a 2021-10-08 1 2 a 2021-10-0

浏览 1提问于2021-12-21得票数 1

回答已采纳

2回答

第一排起火花放电平均滚动率

pyspark

我正在试图计算一个在火花放电中的滚动平均值。我让它发挥作用，但它似乎有不同的行为与我的预期。滚动平均值从第一行开始。例如： columns = ['month', 'day', 'value'] data = [('JAN', '01', '20000'), ('JAN', '02', '40000'), ('JAN', '03', '30000'), ('JAN', '04&#

浏览 3提问于2020-08-16得票数 1

回答已采纳