使用窗口PySpark多列

文章/答案/技术大牛

发布

2回答

、、、

||19 |2017-10-03|2017-09-22 | +---+----------+-----------+ 我知道有很多方法可以使用不同的Window API来完成我所要求的工作，但是我想使用pyspark API来完成以下工作。、(时间范围无关，但为了保持一致性，我们使用week)内的出现次数。使用这些结果添加另一个包含计数的列。挑战是获得正确的Window组合来考虑这两个日期列。

浏览 22提问于2020-06-14得票数 2

回答已采纳

1回答

Pyspark pyspark.sql.functions行为怪异

、、、

当我们有超过3个节点来分发数据时，pyspark.sql.functions下的"last“函数在spark上返回不一致的结果。from pyspark.sql.types import DoubleType numeric = sqlContext.createDataFrame

浏览 1提问于2017-02-02得票数 1

1回答

TypeError：'Column‘对象是不可调用的--使用窗口函数

、、

#尝试在PySpark中使用窗口函数Join_transaciones3F.row_number().OVER(Window.parti

浏览 10提问于2022-11-14得票数 0

1回答

根据组中的其他项为组中的项分配值

、、、、

spark.createDataFrame(input,['group','input']).show(10,truncate=False) 以下是所需的输出：我正在使用pyspark，但是如果有人知道如何在python中实现这一点，那么我可以将其转换为pyspark。

浏览 5提问于2019-06-25得票数 0

回答已采纳

1回答

比较2种pyspark dataframe列和基于它的另一列的更改值

我遇到了一个问题，我从我编写的图形算法中生成了一个数据帧。问题是，在每次运行图形代码之后，我希望基本组件的值基本保持不变。df = spark.createDataFrame( (1, 'A1'), (1, 'A3'), (2, 'B2'), (4, 'C1'),

浏览 4提问于2020-01-14得票数 0

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

、

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

1回答

如何将排名添加到中

、、

我有一个有两个列- id和count的。我想通过反向计数增加一个排名。因此，最高的计数有1级，第二最高的2级，等等。testDF =spark.createDataFrame((DJS232,437232 232,437232)，"id"，"count")from pyspark.sql import8589934592||FKLDFKL| 368|25769803776|然后，我尝试

浏览 3提问于2020-10-11得票数 0

回答已采纳

1回答

在组中对排序

、、、

我想在每个"time"组中对列"id"进行排序。如果我只对"time"排序，会比使用orderby()对两列进行排序更有效吗？

浏览 0提问于2018-04-10得票数 6

1回答

未更新火花配置

、、

从spark中，在Executors窗口中，我可以看到分配给每个执行器的内存是6GiB，如下图所示：我试图使用以下代码更新spark.driver.memory、spark.executor.memory和spark.executor.pyspark.memory：spark = pyspark.sql.SparkSession.builder.appNamespark.driver.memo

浏览 4提问于2021-07-09得票数 0

2回答

用电火花改变多列的DataType

、、

我正试图用pyspark更改多列(100列)的数据类型，我试图创建一个循环或其他可以帮助更改100列(任何帮助)的内容，将不胜感激。这是帮助我更改3列的语法： IntegerTypedfcontract2 = dfcontract \ .withColumn

浏览 12提问于2022-07-19得票数 0

回答已采纳

1回答

用窗口函数替换火花放电中的NA

、、、

我想用基于分区列的注解替换NA，在pyspark中使用窗口函数吗？所需产出：

浏览 4提问于2020-02-26得票数 1

回答已采纳

1回答

多列排序(包括PySpark中的计数)

、、

当其中一个列是计数时，我正试图解决如何在dataframe中按多个列排序。但这不起作用，大概是因为一旦我运行count()，dataframe仅限

浏览 12提问于2022-03-09得票数 0

1回答

如何使用多个隐式反馈的ALS？

、、、

在PySpark中给出的ALS示例中，根据本文档-- )，使用的数据在一列中具有显式反馈。这些数据是这样的:收人品的收视率高我知道我们可以通过将implicitPrefs设置为False来使用隐式反馈但是，它只接受一列。如何使用多列？我发现了一个问题：，但是它与星火法和交替最小二乘法无关。我是否必须根据这个答案手动分配加权方

浏览 5提问于2022-06-17得票数 0

2回答

使用多列的PySpark sampleBy

、、、

我想从PySpark上的数据框架中进行分层抽样。有一个sampleBy(col, fractions, seed=None)函数，但它似乎只使用一个列作为一个层。有没有办法使用多列作为一个地层？

浏览 5提问于2017-05-09得票数 5

回答已采纳

1回答

按特定顺序为每个唯一ID连接多个字符串行

、、、、

我想要创建一个表，其中每一行都是唯一的ID，places列由一个人访问的所有地点和城市组成，按访问日期排序，使用Pyspark或Hive。另外，对于每一列，我需要继续单独执行这个步骤。我还尝试使用windows函数，如本文()所述，但它控制了一个错误:java.lang.UnsupportedOperationException:窗口操作中不支持'collect_list(')。我想：2-对多</em

浏览 0提问于2019-06-26得票数 0

回答已采纳

1回答

当使用PySpark在CSV中读取时，是否可以覆盖一种列类型？

、、

我试图使用PySpark读取包含多列的CSV文件。inferschema选项非常适合推断大多数列的数据类型。如果我只想覆盖被错误推断的列类型之一，那么最好的方法是什么？我可以使用这段代码，但它使PySpark只导入了模式中指定的一个列，这是我不想要的。

浏览 1提问于2021-08-27得票数 2

回答已采纳

1回答

pySpark映射多列

、、、

我需要能够使用多列比较两个数据格式。pySpark尝试 # get PrimaryLookupAttributeValue values from reference table in a dictionary to compare them

浏览 4提问于2020-05-15得票数 1

回答已采纳

1回答

如何在pyspark* dataframe中找到不带group by的累积频率*

、、

我在pyspark dataframe中有一个count列，如下所示：a 3 50 我想要一个结果数据帧为Count Percent CCount CPercent b 3 50 6 100 我不能使用熊猫数据帧我找到了指向窗口分区的答案，但我没有这样的列作为分区依据。请大家用pyspark</

浏览 5提问于2017-03-20得票数 0

2回答

将MinMaxScaler应用于PySpark中的多列

、、

我想将MinMaxScalar of PySpark应用于PySpark数据帧df的多列。到目前为止，我只知道如何将其应用于单个列，例如x。from pyspark.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于PySpark中的许多列，有什么方

浏览 0提问于2020-02-18得票数 17

回答已采纳

1回答

使用多个窗口过滤PySpark数据的行

、、、、

我正在尝试基于时间戳[(start1, stop1), (start2, stop2), ...]的元组列表来筛选Pyspark。每个元组表示一个时间窗口。2||2018-09-01 20:17:00| 5|ts是时间戳的一列，var是感兴趣的变量的列。-----+ |2018-09-01 20:13:00| 1| +-----

浏览 1提问于2018-09-02得票数 0

回答已采纳

点击加载更多