PySpark或SQL:使用coalesce

文章/答案/技术大牛

发布

2回答

、

我正在尝试将pyspark dataframe或sql表中的多个输入列合并为多个输出列。每个输出列将包含“第一个可用的”输入值，然后“使用”它，因此输入值对于后面的输出列是不可用的。

浏览 36提问于2020-08-19得票数 1

回答已采纳

1回答

星星之火数据中合并时间戳列的最有效方法

、、

在星星之火中合并两列最有效的方法是什么？当两列都有值时，这意味着值相等.+--------------------+----------------------+--------++--------------------+----------------------+--------+ |2016-03-24 22:11:...|

浏览 2提问于2016-10-21得票数 1

回答已采纳

1回答

在python spark中测试空列数据帧

、、

我有两个不同的数据帧：Structure DF2: A|B||D|EIf column 3 is empty: (Like is my exemple) result=column 3 def calculcolumn(col3, col4): ret

浏览 37提问于2018-09-17得票数 0

2回答

获取group by中的第一个非空值(Spark 1.6)

、、、

我尝试在 F.first(F.coalesce("code"))中使用，但是我没有得到想要的行为(我似乎得到了第一行)。from pyspark import SparkContextfrom pyspark.sql import functions("a", "code2", "name2"), ], ["i

浏览 6提问于2016-05-20得票数 6

回答已采纳

3回答

将PySpark DataFrame ArrayType字段合并为单个ArrayType字段

、、、、

我有一个带有2个ArrayType字段的PySpark DataFrame：DataFrame[id: string, tokens: array<string>, bigrams: array

浏览 0提问于2016-05-18得票数 21

回答已采纳

3回答

在Spark DataFrame中将空值转换为空数组

、、、

这会导致以下异常：at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49)at org.apache.spark.sql.functions

浏览 5提问于2016-01-08得票数 24

回答已采纳

2回答

无法导入模块'lambda_function'：没有名为'pyspark‘的模块

、、

我正在尝试使用AWS Lambda函数运行我的PySpark作业代码。下面是错误:无法导入模块'lambda_function'：没有名为'pyspark‘的模块from pyspark.sql import functions as F, Column as col from pyspark.

浏览 0提问于2018-12-11得票数 0

1回答

将查询从SQL转换为pyspark

、、、

我正在尝试将以下SQL查询转换为pyspark： SELECT COUNT( CASE WHEN COALESCE(data.pred,0) != 0 AND COALESCE(data.val,0) != 0 THENdata.pred END) / COU

浏览 13提问于2020-12-28得票数 0

回答已采纳

1回答

使用regex语句的case语句

、、、、

然后，我将使用sql查询在最后一个查询中创建一个新字段。我想要创建的字段的代码最初来自postgresql，我想知道在pyspark中正确版本的case语句和regex是什么？代码：from pyspark.context import SparkContextfrom pyspark.sql</em

浏览 1提问于2021-04-16得票数 0

回答已采纳

1回答

pyspark selectExpr不适用于多个列

、

代码示例： df1.selectExpr("coalesce(gtr_pd_am,0),coalesce(prev_gtr_pd_am,0)").show()>>> df1.selectExpr("coalesce(gtr_pd_am,0),coalesce(prev_gtr_pd_am,0/sql</em

浏览 3提问于2018-08-20得票数 0

回答已采纳

1回答

Pyspark:有没有一种有效的方法来排除只有null值但有pk的行？

、、、、

= 1)提前感谢您的帮助。

浏览 4提问于2020-10-08得票数 0

2回答

Spark:无法根据从另一列填充一列空值的输出创建新列

、、

我在databricks中使用了吡火花，但是我对此相当陌生。我最近的尝试如下：任何帮助都将不胜感激。非常感谢。

浏览 0提问于2019-03-28得票数 0

回答已采纳

2回答

如何计算PySpark中行间的差异？

、、、

这是我的DataFrame in PySpark：2015-10-13 11:00:00+00:00 100:00 1 Bdf["data"] -= (df.groupby("feed")["data"].shift(fill_value=0)) 我如何在PySpark

浏览 11提问于2020-12-01得票数 10

回答已采纳

1回答

“任意值”的PySpark聚合函数

、、、、

我有一个PySpark Dataframe和一个A字段，很少有依赖于A (A->B)和C字段的B字段，例如，我希望每个A都聚合这些字段：----------A预期结果将是：----------B | 2 | 12SELECT A, COALESCE(B) as B, SUM(C) asCGROUP BY A PySpark是如何做到这一点的？我可以将A和B组合在一起，或者为每个A选择

浏览 0提问于2018-02-25得票数 6

回答已采纳

1回答

我正在运行pyspark脚本，其中我正在运行sql查询和创建数据帧。在sql query中有dense_rank()函数。由于此查询需要花费太多时间才能完全执行。有没有什么方法可以快速执行查询，或者我们可以在pyspark级别处理这个问题？在pyspark中有没有什么函数或方法可以替代sql中的dense_rank()？SQL： SELECT DENSE_RANK() OVER(ORDER BY SOURCE_COLUMN_VALUE) AS SYS

浏览 55提问于2020-04-10得票数 1

回答已采纳

2回答

火花放电数据中值的条件替换

、、

我有火花数据如下：| part| company| country| city| price| date|| 52125-136| Brainsphere|

浏览 4提问于2020-11-26得票数 0

回答已采纳

1回答

如何在pyspark中对dataframe进行算术运算？

、、

为此，我必须使用以下公式：这段代码是用Oracle SQL编写的，我需要在PySpark中执行同样的操作。到目前为止，就像在上面的代码中使用nvl一样，我已经在Pyspark中使用了fill()将null值替换为0。

浏览 69提问于2021-02-16得票数 0

1回答

如何在DataFrame中使用具体的时间戳填充任何值？

、、

我使用Spark2.1和python2.7.12。假设以下内容：import timestamp 如何使用

浏览 3提问于2017-05-16得票数 6

回答已采纳

3回答

使用Pyspark合并两个数据文件

、、

Concat)), DF1.Tot - DF2.Tot).otherwise(when(not(DF1.Concat.isin(DF2.Concat)), DF1.Tot)).show() 关于我可以使用的替代函数，或者如何正确使用这些函数，有什么建议吗？

浏览 0提问于2019-06-03得票数 0

回答已采纳

2回答

PySpark中的比较运算符(不等于/ !=)

、、、、

使用以下模式(三列)， df = sqlContext.createDataFrame([('a',1,'null'),('b',1,1),('c',1,'null'),('d','null',1),(

浏览 1提问于2016-08-24得票数 21

回答已采纳

点击加载更多