使用pyspark复制组内的值_根据组内匹配条件复制值的Excel数组公式_减去组内的值 - 腾讯云开发者社区

、、

我在pyspark中有一个类似于这个的df。我需要复制组中的值，而不是留下空字符串。| 1|| | 154| 1| +---------------+-----+----+ 我需要像这样的输出

浏览 18提问于2021-10-28得票数 0

回答已采纳

1回答

在pyspark dataframe中检索最大值时遇到问题

、、、、

在我通过使用窗口和对一组列进行分区来计算pyspark dataframe中每行5行内的平均数量之后 from pyspark.sql import functions as Fconsecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window)) 我尝试使用相同<em

浏览 14提问于2020-06-19得票数 0

回答已采纳

2回答

R-复制组内的值

、、

我有一个数据框，其中我有过去3年(2016,2017,2018)某人得分的总分数，但也有列与他们每年的积分。我的数据帧如下所示： Dates= c("2016", "2017", "2018", "2016", "2017",, 2, NA, NA, 3), Points2018

浏览 0提问于2018-03-13得票数 4

5回答

火花复制数据栏- Python/PySpark中的最佳实践？

、、

这是用于使用Spark2.3.2的Python/PySpark。我正在寻找最佳实践方法，将一个数据框架的列复制到另一个数据框架，使用PySpark对一个非常大的10+十亿行数据集(按年/月/日平均划分)。每一行都有120列要转换/复制。输出数据帧将被写入另一组文件中，日期分区。示例模式是：input DFinput (colA，colB，colC)和输出DFoutput (X，

浏览 1提问于2018-12-19得票数 5

2回答

我目前正在编写一个regex，我想在PySpark Dataframe的专栏中运行它。此正则表达式仅用于捕获一个组，但可以返回几个匹配的。我遇到的问题是，PySpark本机regex的函数(regexp_extract和regexp_replace)似乎只允许组操作(通过$ operand)。有没有一种方法(PySpark函数，而不是python的re.findall-基于udf)获取与我的reg

浏览 4提问于2019-11-19得票数 5

回答已采纳

2回答

使用pySpark迭代每一行数据帧

、、、、

我需要使用dataframe来迭代pySpark，就像我们可以使用for循环迭代一组值一样。下面是我写的代码。这段代码的问题是 from pyspark.sql.functions impor

浏览 2提问于2017-01-30得票数 3

3回答

数组对象内相同值的组复制

390 "_id": { "month": 5 "Pending": 1400上面的数组包含相同的值月份和年份我希望将它们合并成一个对象，并保存它们所拥有的任何键和值。2017, Pending: 390 month: 5, Pending: 1400 }]

浏览 2提问于2017-06-11得票数 0

回答已采纳

1回答

在pyspark数据帧中查找非重叠窗口

、、、

假设我有一个以秒为单位的id列和时间列(t)的pyspark数据帧。对于每个id，我希望对行进行分组，以便每个组都包含在该组开始时间之后5秒内的所有条目。|1 |+---+--+---------+-------------+-------+ 我不需要子组编号是连续的我可以接受在Scala中使用自定义UDAF的</e

浏览 20提问于2019-07-19得票数 0

1回答

在火花放电UDF中使用蓄能器

、、

我想要访问pyspark内部的累加器：from pyspark.sql import SparkSessionfrom pyspark.sql.types import StringType return accum.value

浏览 12提问于2022-08-28得票数 0

回答已采纳

2回答

pySpark: groupBy()有可能每个组只有一个节点吗？

、、、、

我用pySpark计算每组矩阵。如果Spark将任何给定组的行存储在一个节点上，则计算速度会更快，因此Spark可以在本地计算每个矩阵。恐怕节点间的合作需要更长的时间。map()和groupBy()通常都能实现这样的目标吗？如果可能的话，我应该把它指定为选项吗？注意：矩阵包括计算每一行与前一行之间的距离，在每个(排序)组内。

浏览 2提问于2016-06-10得票数 0

回答已采纳

1回答

根据组中的其他项为组中的项分配值

、、、、

我试图根据输入字符串是否位于组中另一个字符串的开头为组中的每一行分配一个值。例如，"hello“位于"hello world”的开头，因此这两种类型的值都被指定为“在一起”。“再见”没有分配“在一起”值，因为它不在组中另一个字符串的开头。bonjour madame')] spark.createDataFrame(input,['group',&#

浏览 5提问于2019-06-25得票数 0

回答已采纳

1回答

如何在PySpark* DataFrame中创建N个重复行？*

、、

2016-07-03 2016-07-10基本上，对于itemid的每个唯一值，我需要将timestamp放到一个新的timestamp_start列中。因此，itemid组中的每一行都应该重复n时间，其中n是组中的记录数。希望我能解释清楚。这是我在PySpark中的初始PySpark：

浏览 0提问于2020-01-09得票数 0

回答已采纳

7回答

不替换采样算法？

、、

一种鲁棒的方法是Monte模拟，其中数据和组之间的关联被随机地重新分配了很多次(例如10,000次)，并且使用一种聚类的度量来比较实际数据和模拟来确定p值。问题是:在没有替换的情况下，快速采样的方法是什么，以便在复制数据集中随机重新分配每个指针？例如(这些数据只是一个简化的例子)：数据(n=12值)-A组: 0.1、0.2、0.4 /B组: 0.5、

浏览 9提问于2008-11-22得票数 15

回答已采纳

1回答

如何在使用spark ml时以另一种方式索引分类特征

、

火花指数中的VectorIndexer根据变量的频率来分类特征。但我想用另一种方式对分类特征进行索引。例如，对于下面的数据集，"a“、"b”、"c“将被索引为0、1、2，如果我在spark中使用VectorIndexer。但是我想根据标签给它们做索引。是否有任何可行的方法来实现这一点？

浏览 4提问于2016-10-26得票数 3

回答已采纳

1回答

如何使用PySpark执行嵌套的for-each循环

、、

假设有一个大型数据集(>40 of的拼图文件)，其中包含数千个变量的值观察，如三元组(变量、时间戳、值)。现在想想一个查询，您只对500个变量的子集感兴趣。您希望检索特定时间点(观察窗口或时间框架)的这些变量的观测值(值->时间序列)。有开始和结束的时间。：如何使用火花/PySpark？其中，dataframe 1包含事件1和datafra

浏览 2提问于2016-08-25得票数 6

回答已采纳

1回答

聚合为三个最大值的总和，按火花放电计

、

我有一个按'id‘和’type‘分组的dataframe：| id|type|count|| 0| A| 2|| 1| C| 1|| 1| G| 2|现在我想按'id‘进行分组，得到3个最大值的总和

浏览 0提问于2018-10-24得票数 0

2回答

SQL:将时间戳与纯时间参数匹配为组，并在多天内计数唯一的时间。

、、、、

使用SQL或Pyspark，我希望在两个月的时间范围内计算时间戳中的唯一次数。我希望看到记录到表的行的频率的分布情况。这是因为我知道有很大比例的时间戳的时间是00:00:00，但我想知道与其他时间相比，时间戳的比例有多大。这个查询组和计数最常见的日期时间，但我需要排除日期，并且只有时间。显然，这不是一件很平常的事。from table_name

浏览 5提问于2021-05-17得票数 0

回答已采纳

2回答

PySpark:根据不同列中某个值的最后一次出现情况填充列

、、

使用PySpark，我正在寻找一种根据列Status中的值填充列Code的方法。df按ID列排序。唯一有意义的Code值是A (Good), B (Bad), C (Neutral)。当这些值中的一个出现时，我希望每一行都有相同的Status值，直到出现任何其他重要的Code值。这是所需的带有新添加的Status列的<

浏览 25提问于2019-05-13得票数 1

回答已采纳

2回答

PySpark -结构内的求和值

、、

nullable = true) |-- DataColumn3: string (nullable = true) 我的目标是创建一个新的列，称为“DataColumn4”，它是在‘DataColumn4 1’中的结构'colB‘中所有字段’字段A‘、' fieldB’和'fieldC‘(fieldA +fieldB+ fieldC)的总和在“colB”中可能有N个字段，所以我如何在不通过DataColu

浏览 8提问于2022-08-27得票数 1

回答已采纳

5回答

火花放电中柱的比较

、、

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释的那样，熊猫身上也有类似的东西。在PySpark</e

浏览 7提问于2016-06-07得票数 29

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云