如何根据条件阈值pyspark计算列的累加和_如何在Kusto中根据条件计算列的累加和_根据条件pyspark计算不同的列值 - 腾讯云开发者社区

、、、、

我有一个如下所示的数据框架。我希望计算V上每个id的累积和，以便当前一行的累积大于或等于阈值25时，累积和将重置为当前值，如下图所示。我尝试在V上编写一个用户定义的to运算符，但我收到一个错误，指出它是不可迭代的。我试过你的滞后，但我也没有成功。我需要帮助！

浏览 24提问于2021-10-20得票数 0

回答已采纳

2回答

如何对pyspark数据帧进行check/try-catch？

、

我有一个dataframe，它根据现有列的缩减计算创建一个新列。我需要检查，如果使用的减小值高于特定的阈值数字，则应使其等于阈值数字/不应超过它。我尝试过在.withColumn语句内部和之后包装when语句 df = df.withColumn('total_new_load', col('existing_load') *

浏览 50提问于2019-05-23得票数 1

9回答

当累加器满足一定条件时，如何从haskell的折叠函数中爆发？

、、

在将someFunction应用于列表的每个元素之后，我正在计算列表的和，如下所示：someFunction资源非常多，所以为了优化它，我想停止计算超过某个阈值的和似乎我需要使用折叠，但如果累加器达到阈值，我不知道如何突破它。我的猜测是以某种方式组成fold和takeWhile，但我不太确定是如

浏览 0提问于2018-08-07得票数 19

回答已采纳

1回答

如何在Kusto中根据条件计算列的累加和

、、

我想计算no。状态设置为1的天数。每次状态为0时，计数应从1重新开始。注意:它不需要是连续的天数输入 UserId | Day | Status|A |2021-09-17 | 1

浏览 30提问于2021-09-29得票数 0

1回答

用广义hough变换比较任意形状

、、、

我将要处理的几个形状如下所示：A)转换/培训阶段B)识别我的问题是如何继续前进？如何使用这些累加</em

浏览 3提问于2012-07-20得票数 2

2回答

如何在数组公式中包含OR，其中只需要一些条件为TRUE - Excel

、、、

我试图计算的行数如下：( 1)所有列都有条目，以及( ii)至少有一个符合列特定条件的值。2，因为2/4行至少包含一个满足列阈值的值。具体来说，第1行有3个满足列阈值的值，第3行有2个值。第2行没有满足列阈值的值，而第4行不应计算，因为它不包含所有列的条目，例如：

浏览 0提问于2018-11-25得票数 1

回答已采纳

1回答

根据条件pyspark计算不同的列值

、、、、

我有一个包含两个可能值的列：'users‘或'not_users’ 我想要做的是当这些值是‘countDistinct’时使用这些值这是我使用的代码： output = (df3345 2308 2020-43 5689 4000 这个期望的输出应该是它所属的列中'users‘值的distinct计数。

浏览 8提问于2020-12-23得票数 1

回答已采纳

1回答

PySpark DataFrame:标记某些列值发生更改的行

、、、

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行分组，其中“时间戳”的差异不超过“阈值”值(例如5分钟)。感谢你的想法！

浏览 35提问于2018-08-30得票数 0

回答已采纳

1回答

计算各行的合计并将其进位到下一行

我想我需要使用前面1个函数之间的行。我对pyspark还不熟悉，不知道该怎么做。任何帮助都是非常感谢的。谢谢！

浏览 13提问于2021-11-04得票数 0

1回答

在火花放电中创建计数器

、、、

如何在Pyspark中实现以下R代码l$d2[1]= 0for(i in2:nrow(l)) c= ifelse(l$d2[i]<=3,c,c+1) }如果值大于或等于3，我想迭代一列，假设我的专栏中的元素是国旗应为: 1,1,1,2,2,2,3

浏览 3提问于2016-11-07得票数 2

2回答

要为每行pyspark* dataframe计算多个if elif条件*

、、、

我需要帮助在pyspark数据帧主题。我有一个数据框架，比如1000+列和100000+ rows.Also，我有10000+ if elif条件，在每个if else条件下，只有很少的全局变量被一些值递增。现在我的问题是，我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数，它们根据条件返回行，我需要检查这些10000+ if else条件并

浏览 0提问于2017-07-25得票数 0

1回答

使用PySpark根据列名及其数值过滤spark RDD

、、、、

问题是我的RDD有大约100万个观察值和大约33列。我基于数值阈值('Time')来拆分RDD。时间变量采用数字格式(double) (非posix)。以下是Scala的源代码：val splitTime = data.stat.approxQuantile("Time", Arraydata.filter(s"Time<$splitTime").c

浏览 6提问于2017-12-13得票数 0

1回答

基于其他列更新列的Pyspark行

、

---+----++---+----+| 2| Tim|| 4| sam|现在，我向df添加了一个新列，null|| 3| Jim| null|+---+----+----------+ 现在，我想根据一个条件更新new_column中的值。我试图写下面的条件，但无法这样做。编辑--我不是在寻找if th

浏览 1提问于2018-05-02得票数 0

回答已采纳

1回答

基于长度值的下拉列

、、、

我有一个Pyspark，在其中我需要检查number列和是否drop the row if the size of value present is not 4 |number| 1345| +------++------++------+| 1345|我知道如何使用长度(df.number)来计算数字的大小，但是我无法实现所需的<

浏览 3提问于2020-07-03得票数 0

回答已采纳

3回答

用numpy数组检查多个条件

、、

我有一个有几行和几列的Dataframe，我已经将它转换成一个numpy数组来加速计算。这些列现在存储在numpy数组a = df.values中。我需要检查五列中至少有两列是否满足条件(即它们的值大于某一阈值)。最初，我编写了一个函数，直接在dataframe上执行操作。但是，由于我有大量的数据，需要一遍又一遍地重复计算，所以我转而使用numpy来利用矢量化。来检查我想用的<e

浏览 9提问于2021-12-22得票数 2

2回答

根据另一列numpy中的阈值和条件计算累积和

、、、

我有一个数据框架，我想根据两个条件计算累积和：我第一次或第二次成功了，但我发现很难将两者结合起来。lambda a,b: b if (a+b>5) else a+b, 2, 1)我的df是，SumS

浏览 3提问于2021-07-01得票数 3

回答已采纳

1回答

动态填充中的列名

、、、

我正在开发一个动态脚本，它可以join任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题，但是我使用一个变量名执行连接，它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多列)a="existingFile.Id" unCha

浏览 2提问于2018-02-24得票数 0

回答已采纳

1回答

根据datetime列上的条件在其他新列中求和Pandas DF值

、

我有一个简单的Pandas Dataframe，有四列：2006年-12-31；0.00；60.00其中：对于每个NRAPP，我想根据DSCARAT是否小于阈值日期('2020-03-17' )，在四个不同的

浏览 0提问于2020-04-02得票数 0

1回答

MDX iif条件仅适用于非空单元格

、、、

我如何将和iif条件与它应该只对有值的单元格有效这一事实结合起来？具体地说，我有一个列，我在其中识别列A和列B之间的差异。现在，我想定义一个阈值，并在达到阈值时显示是或否。对于包含空白或零的值，不应应用条件，也不应显示row。有什么想法要解决吗？

浏览 2提问于2020-09-29得票数 1

1回答

基于两个同时条件(阈值和计数)指定因子的级别

、、

我需要根据一组属性中的特定观察值满足特定阈值的次数来分配因子的级别(在新列中)。at

浏览 0提问于2018-11-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云