如何对pyspark dataframe中的列的值求和

文章/答案/技术大牛

发布

1回答

如何将DataFrame.withColumn与条件一起使用

、、

我想知道如何在完整的DataFrame上创建一个新列，但其值仅基于DataFrame的一个子集(即，基于条件应用的某些函数)。在本例中，我希望创建一个列，该列将每个ID与Value列中按ID的正值之和相关联。|| 1 | 12 | 17 | +-----+-----

浏览 1提问于2019-02-02得票数 0

2回答

如果某些值为空，如何在SUM中返回空？

、、、

我遇到过这样的情况:我的列中可能有空值，需要在一个组中求和。如果我在组中遇到null，我希望该组的和为null。但是默认情况下，Pyspark似乎会忽略null行，并对其余非NULL值求和。dataframe = dataframe.groupBy('dataframe.product',

浏览 87提问于2021-01-18得票数 1

回答已采纳

3回答

、、、

我在Pyspark工作，我有一个包含以下列的数据框架。true)|-- cpih_coicop_weight: double (nullable = true) 我需要最后一列(cpih_coicop_weight)中所有元素的总和，以便在程序的其他部分中用作双精度。非常感谢您的提前！

浏览 36提问于2018-02-02得票数 15

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。Column_1 column_2null null125 124and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有<em

浏览 1提问于2017-02-18得票数 56

回答已采纳

1回答

在应用pandas udf: IndexError后不能使用.toPandas()或.collect()

、、、

我正在使用pandasUDF将标准的ML python库应用于pyspark DataFrame。在定义了模式并进行了预测之后，我得到了pyspark DF作为输出。现在，我想用这个预测数据帧做一些事情，例如，我尝试对列"weekly_forecast_1“中的所有值进行求和。当我应用.collect()或.toPandas()方法时，在.fit()中得到以下错误 IndexError:

浏览 33提问于2020-11-24得票数 0

2回答

根据另一列中的特定值对一列中的值求和

、、

例如，我在Pandas中有一个DataFrame： df = pd.DataFrame("a":[0,0,1,1,0], "penalty":["12", "15","13","100", "22"])我如何求和“惩罚”列中的值，但我只想对列"a“中值为0的</

浏览 14提问于2019-11-21得票数 1

1回答

如何使用pyspark仅按特定功能分组

、、、、

0 | 1 | |MAC000024| 8| 481.7160003000004| 1 | 0 | 但我能做的就是使用下面的代码9|449.07699989999975| 8646| 2882| 25938| 问题是sum函数也是在acron和acron_grouped上计算的，您知道如何仅在KWH/hh上进行分组吗

浏览 20提问于2020-12-22得票数 0

回答已采纳

1回答

PySpark DataFrame:标记某些列值发生更改的行

、、、

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行分组，其中“时间戳”的差异不超过“阈值”值(例如5分钟)。感谢你

浏览 35提问于2018-08-30得票数 0

回答已采纳

2回答

将每一行的值求和为布尔值(PySpark)

、、

目前，我有一个PySpark dataframe，它有许多由整数计数填充的列。其中许多列的计数为零。--我想找到一种方法来求和有多少列的计数大于零，。换句话说，我想要一种跨行求和值的方法，其中给定行的所有列实际上都是布尔值(尽管数据类型转换可能不是必要的)。我的表中有几个列是日期时间或字符串，

浏览 2提问于2020-04-24得票数 1

回答已采纳

3回答

如何在pyspark中对spark dataframe中的多个列求和？

、、

我有一个列名的列表，我想对其求和如何添加这三个元素并将其放入新列中？(以一种自动的方式，以便我可以更改列列表并获得新的结果)col1 col2 col3 result谢谢！

浏览 0提问于2018-11-14得票数 10

回答已采纳

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在<

浏览 1提问于2016-10-06得票数 4

回答已采纳

2回答

根据另一列中的项对pandas列中的值进行求和

、

如何根据pandas dataframe中'one‘列的项目对'two’列中的值求和： df = pd.DataFrame({'One': ['A', 'B', 'A', 'B'], 'Two': [

浏览 7提问于2019-03-02得票数 0

回答已采纳

2回答

星星之火数据(ForeachPartition)：将元素之和

、

我试图在每个分区的火花数据和和元素的划分使用吡咯烷酮。但我无法在被调用的函数"sumByHour“中执行此操作。基本上，我无法访问"sumByHour“中的dataframe列。基本上，我是按“小时”列进行分区，并试图根据“小时”分区对元素进行求和。预期产量分别为: 6,15,24，0,1,2小时。在没有运气的情况下尝试过。from pyspark</e

浏览 4提问于2022-01-25得票数 0

回答已采纳

1回答

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

、、、

我有一个pyspark dataframe A，它有3列：-69 40 trp我有另一个pyspark dataframe B，它具有相同的列，但捕获的值将不同：-68 43 trp我希望根据dataframe B中匹配的邮政编码为A的每个记录创建纬度经度<

浏览 2提问于2017-11-16得票数 0

1回答

使用Pyspark* [duplicate]的Dataframe中每行的行总和*

、、

这个问题在这里已经有答案了：如何在pyspark中对spark dataframe中的多个列求和？ (3个答案) 8天前就关门了。有一个场景可以找到DF中的行数之和，如下所示 ID DEPT [..]52 53 845 SZY 57 62 73 54 需要为每行查找SUB1 SUB2 SUB3 S

浏览 87提问于2021-02-20得票数 0

回答已采纳

1回答

如何使用pyspark将数值转换为分类变量

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

1回答

左反团员

、、、

我有一个dataframe，它有两个列a和b，其中b列中的值是a列中值的a子集。，其中anti_b列中的值是来自a列的任何值，这样a!=anti_b和行(a,anti_b)就不会出现在原始的数据格式中。-+ 这可以通过一个crossJoin和对array_contains<e

浏览 2提问于2019-11-18得票数 0

4回答

在Spark Dataframe中的列列表中添加一列rowsum

、、、

我有一个包含多个列的Spark数据帧。我想在dataframe中添加一个列，它是一定数量的列的总和。4 9 4 6 9 d 1 2 6 8 1 我想要添加一个列，用于对特定列的行进行求和： ID var1 var2 var3 var4 var5基于这个答案，这基本上就是我想要的，但它使用<e

浏览 38提问于2016-06-04得票数 21

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所

浏览 16提问于2020-12-30得票数 2

9回答

PySpark -对数据格式中的列进行求和，并以int形式返回结果

、、、

我有一列数字的电火花数据。我需要对该列进行求和，然后在python变量中将结果作为int返回。+-----------++-----------++-----------+ 我会把130作为一个int返回到一个变量中，以便在程序中的其他地方使用

浏览 22提问于2017-12-14得票数 56

回答已采纳

点击加载更多

如何将DataFrame.withColumn与条件一起使用

如果某些值为空，如何在SUM中返回空？