根据条件pyspark计算不同的列值

、、、、

我有一个包含两个可能值的列：'users‘或'not_users’ 我想要做的是当这些值是‘countDistinct’时使用这些值这是我使用的代码： output = (df3345 2308 2020-43 5689 4000 这个期望的输出应该是它所属的列中'user

浏览 8提问于2020-12-23得票数 1

回答已采纳

1回答

完整数据帧的火花散列

、

是否可以找到完整PySpark数据的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道pySpark中存在函数，用于从pyspark.sql.functions导入sha2进行列级哈希计算。读取数据中<e

浏览 8提问于2022-12-04得票数 0

1回答

基于其他列更新列的Pyspark行

、

---+----++---+----+| 2| Tim|| 4| sam|现在，我向df添加了一个新列，null|| 3| Jim| null|+---+----+----------+ 现在，我想根据一个条件更新new_column中的值。我试图写下面的条件，但无法这样做。编辑--我不

浏览 1提问于2018-05-02得票数 0

回答已采纳

2回答

根据excel中的条件计算字符串的唯一数目

、

我想根据excel中的条件来计算唯一的字符串。在下面的示例中，列B到F是输入，列G和H是预期输出。目前，我正在为H6 =COUNTIFS(E1:E20, "<>", B1:B20, G6, C1:C20, "v1", D1:D20, "f")使用公式，但是使用这个公式，1被计算为2时间，但我不想计算重复条目如何根据条件忽略重复

浏览 2提问于2020-02-01得票数 0

回答已采纳

1回答

动态填充中的列名

、、、

我正在开发一个动态脚本，它可以join任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题，但是我使用一个变量名执行连接，它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多列)a="existingFile.Id" unChangedRecor

浏览 2提问于2018-02-24得票数 0

回答已采纳

2回答

要为每行pyspark dataframe计算多个if elif条件

、、、

我需要帮助在pyspark数据帧主题。我有一个数据框架，比如1000+列和100000+ rows.Also，我有10000+ if elif条件，在每个if else条件下，只有很少的全局变量被一些值递增。现在我的问题是，我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数，它们根据条件返回行，我需要检查这些10000+ if else条件并执行一些操作。任何帮助都将不胜感激

浏览 0提问于2017-07-25得票数 0

1回答

pypsark循环转换为映射

我有一个具有空值的数据集。0|| 1| 1| 0||null| 1| 0|我编写了一个函数来计算数据集中每个列的空值百分比，并从数据集中删除这些列。strength: return df 我

浏览 7提问于2022-07-14得票数 0

回答已采纳

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

基于VBA内部条件和粘贴值的求和

、

我正在尝试找出一些代码，将来自vba内部不同工作表的所有值加在一起，并将它们粘贴为值。我想一次运行每一行(一行都有相同的条件，只是根据列号从不同的地方获取数据)。我怎样才能这样根据条件来计算和呢？

浏览 2提问于2020-02-21得票数 0

回答已采纳

1回答

pyspark.sql.functions -计数以考虑空值：

、

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。null| accounts| null|+---+------+-----------+------+ 现在，如果我运行以下代码来计算每个列中不同<em

浏览 12提问于2022-06-07得票数 0

1回答

PySpark支持条件语句的短路评估吗？

、、、、

我想在我的dataframe中创建一个新的布尔列，它的值来自对同一dataframe中其他列的两个条件语句的计算：| 2| red| NULL| NULL| +-------+----------+-----

浏览 7提问于2021-07-14得票数 2

回答已采纳

1回答

如何根据条件阈值pyspark计算列的累加和

、、、、

我有一个如下所示的数据框架。我希望计算V上每个id的累积和，以便当前一行的累积大于或等于阈值25时，累积和将重置为当前值，如下图所示。我尝试在V上编写一个用户定义的to运算符，但我收到一个错误，指出它是不可迭代的。我试过你的滞后，但我也没有成功。我需要帮助！

浏览 24提问于2021-10-20得票数 0

回答已采纳

3回答

pyspark:获取dataframe的每一列中的唯一项

、

我有一个包含一百万行和560列的spark数据帧。我需要找到dataframe的每一列中唯一项的计数。我已经编写了以下代码来实现这一点，但它被卡住了，并且执行起来花费了太多的时间： var=count_unique_items.append(data.select(var).distinct().rdd.map(lambda r:r[0]).count()) cat_col包

浏览 9提问于2016-11-29得票数 0

1回答

如何计算pyspark数据帧中值的条件概率？

、、、

我想通过pyspark中的列类型的值来计算ratings列中的评级(‘A’，'B'，'C')的条件概率，而不是收集。

浏览 21提问于2020-10-26得票数 1

回答已采纳

2回答

通过对多列进行分组，用平均值填充缺失值

、

描述：“如何用平均、按条件分组数据和按Pyspark中的模型列来填充价格列中缺失的值?我的python代码如下:cars['price'] = np.ceil(cars['price'].fillna(cars.groupby(['condition', 'model' ])['price错误：我尝试了不同的代码，但是每次我都会

浏览 2提问于2021-12-01得票数 2

回答已采纳

1回答

PYSPARK:如何根据条件更新列中的值

、

给定两个列的表: DEVICEID和DEVICETYPEfrom pyspark.sql.functions import *

浏览 1提问于2020-06-23得票数 3

回答已采纳

1回答

检查火花数据中的行值是否为空。

、、、、

我正在使用pyspark中的自定义函数来检查星火数据true中每一行的条件，如果条件为true，则添加列。守则如下：from pyspark.sql.functions import *sdf.show()AttributeError

浏览 3提问于2016-08-19得票数 7

3回答

Pyspark:根据条件和不同的值添加一个新列

、、、、

['2', '2', '8', '23', '0004'] ['col1', 'col2', 'col3', 'col4', 'col5']df.show() 我想根据下面的条件和不同的值添加一个新列寻找一种改进的或替代的方法，

浏览 0提问于2021-04-08得票数 2

回答已采纳

1回答

如何检测pyspark中的单调下降

、、、

我正在使用spark DataFrame，我希望检测来自特定列的任何值，其中该值不是单调递减的。对于这些值，我想根据排序条件将它们替换为以前的值。下面是一个概念性的示例，假设我有一个值为[65, 66, 62, 100, 40]的列。值"100“不遵循单调下降趋势，因此应替换为62。因此，结果列表将是[65, 66,

浏览 15提问于2020-02-14得票数 1

回答已采纳

1回答

用复变函数更新列

、、、、

是否可以使用一个复杂的函数更新hiveContext数据列？我有一个包含许多列的dataframe，其中2列称为时间戳和数据。我需要从数据中的JSON字符串中检索时间戳，如果数据中的时间戳满足某些条件，则需要更新时间戳列。我知道该数据格式是不可变的，但是可以以某种方式构建一个新的dataframe，保留旧的dataframe的所有列，但更新时间

浏览 7提问于2016-05-10得票数 1

回答已采纳

点击加载更多