Pyspark中的条件计数_条件下的PySpark增量计数_Pyspark:对条件列中的单元格进行计数 - 腾讯云开发者社区

、、

DISC0000089428 31719 893 514我的想法是将case when部分转换为更具Pythonic/Pyspark风格的代码。这就是我尝试以下代码的原因： .join(activations,['customer_id','external_id&

浏览 15提问于2021-02-17得票数 0

回答已采纳

2回答

基于列值数据和应用条件的电火花滤波

、、、

我有一份这种格式的。Apple | 16|+----------------+--------+---最终输出应如下所示|ip_address| DeviceSamsung| 18 ||8

浏览 8提问于2020-10-06得票数 0

回答已采纳

1回答

如何从pyspark中的spark dataframe中提取特定值？

、、

我需要使用sql查询从pyspark中提取计数。count在spark dataframe中，我想使用计数值在if条件中使用，但不能提取该值。

浏览 99提问于2021-08-03得票数 0

回答已采纳

1回答

如果字符串小于x，请替换为“F.Col”

、、

一行有很多不同的计数，我正在尝试通过将一些不太频繁的不同值转换为类似"Other“的值来减少它。下面我将尝试说明我的df和所需的df。这是我当前的DF： ID Street2 Kent4 Grove1Kent3 Kent5 Other 我想通过计数</

浏览 11提问于2021-04-12得票数 0

1回答

PySpark计数值按条件

、、

我这里有一个DataFrame，一个代码片段：基本上是一个名为f的字符串字段，第二个元素(is_fav)的值为1或0。我需要做的是对第一个字段进行分组，并计算1和0的出现次数。我希望做一些像这样的事情 num_nonfav = count((col("is_f

浏览 0提问于2016-03-18得票数 8

回答已采纳

2回答

我使用的是PySpark，在这里我从数据帧中构建临时视图。作为其中的一部分，我想知道如何比较两个数据帧的计数，如果它们不匹配，就抛出一个错误。我的代码如下所示： df1 = spark.sql ("""SELECT Col1, Col2, Col3, Col4, Col5 FROM Table1""") df1.createOrReplaceTempViewJOIN Table2 ON Table1.Col1

浏览 8提问于2020-08-21得票数 1

回答已采纳

3回答

pyspark条件下的行数计数

、

', 12452, 221), ('mb', 14521, 330),('bn',2,220),('mb',14520,331)],['x','y','z'])我需要根据一个条件来计算行数2| +---+------------------+----------------+ 它只是在某些条件下的行数

浏览 1提问于2018-02-28得票数 24

回答已采纳

1回答

PySpark数据聚合中包含null的计数

、

我正在尝试使用agg和count来获取DataFrame的一些计数。from pyspark.sql import Row ,functions as Fdf = (sc.parallelize F.count('Casted').alias('Valid_Date_Count').show() 函数F.count()只

浏览 0提问于2017-09-19得票数 6

回答已采纳

1回答

PySpark数据的条件聚合

、、

我试图在PySpark数据帧上执行条件聚合。+---+-----+----+----+| 2| 0.0| 2|1019|

浏览 0提问于2019-08-28得票数 0

回答已采纳

1回答

检查火花数据中的行值是否为空。

、、、、

我正在使用pyspark中的自定义函数来检查星火数据true中每一行的条件，如果条件为true，则添加列。守则如下：from pyspark.sql.functions import *sdf.show()Attri

浏览 3提问于2016-08-19得票数 7

1回答

Pyspark -具有重置条件的累积和

、、、、

| 1|| 8|null| 1|| 10| 2.0| 0|+---+----+---+ 我需要做的是从列C到下一个值为零的值的累积和。9| 5.0| 0| 0|| 11|null| 1| 1|from pyspark.sq

浏览 9提问于2019-05-31得票数 6

回答已采纳

1回答

条件下的PySpark增量计数

、、、

给定一个包含以下列的Spark数据帧，我尝试根据event列的内容何时计算为True，为每个id构造一个增量/运行计数。01| B|false||2018-01-03| B|false| +----------+---+-----+ 在这里，将创建一个名为results的新列，其中包含增量计数。理想情况下，该解决方案将在没有and group by或聚合函数的情况下逐行递增计数。提前谢谢。

浏览 17提问于2021-06-15得票数 0

回答已采纳

1回答

正在分析的pyspark* udf打印行*

、、、、

我在一个pyspark udf函数中遇到了一个问题，我想打印产生问题的行号。import pyspark.sql.functions as F myF.lineNumber += 1 return res my

浏览 2提问于2019-01-18得票数 3

1回答

Pyspark:基于多个值的条件进行计数

、

4种不同情况的计数：Case2 =开了处方但未诊断的患者的计数Case4 =未开处方且未诊断的患者的计数我知道如果我在诊断上做了explode()之后再做groupBy('diagnosis','prescr_testdrug').count()，我基

浏览 3提问于2019-03-19得票数 0

1回答

如何在多个列上应用条件并在pyspark中显示错误消息

、、

我有一个如下的数据框架。+---+---+---+---++---+---+---+---++---+---+---+---+e.g. if df.x >0:类似地，代码应该显示value大于零的所有

浏览 1提问于2018-03-27得票数 0

1回答

Pyspark:在运行时为when()子句动态生成条件

、、

我已将csv文件读入pyspark dataframe。现在，如果我在when()子句中应用条件，那么当条件在runtime之前给出时，它会很好地工作。import pandas as pdfrom pyspark.sql import SQLContextfrom pyspark.sql.functions import col s

浏览 0提问于2019-11-08得票数 0

回答已采纳

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

具有自定义字段的气流自定义度量和/或结果对象

、

在通过气流运行pySpark SQL管道时，我有兴趣获得一些业务统计数据，如：如果您有解决方案，请至少发布一些伪代码。

浏览 0提问于2019-04-29得票数 7

回答已采纳

2回答

不带聚合或计数的Pyspark* groupBy DataFrame*

、、

它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗？例如Pandas中的代码： for i, d in df2:Is there a difference in howto iterate groupby in Pyspark or have to use aggregation and count?

浏览 54提问于2020-01-07得票数 3

回答已采纳

1回答

Pyspark groupby列，同时有条件地对另一列进行计数

、

我需要在使用groupBy时从pyspark获得条件输出的帮助。LogOn|Success|| 2| LogOn|Success|下表显示了我想要的内容|+----+-----------+-------+ 总体而言，我尝试按时间分组并填充新列，最好是让代码填充列名，因为我不会总是有一个完整的列表和计数我知道

浏览 1提问于2018-10-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云