关于窗口函数中F.count(F.col("some column").isNotNull())的用法

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试测试窗口函数中F.count(F.col().isNotNull())的用法。df=spark.createDataFrame(list,['I_id','p_id','xyz']) w= Window().partitionBy("I_id","p_id").orderBy(F.col("xyz").as

浏览 22提问于2021-04-03得票数 1

回答已采纳

2回答

列中的pyspark计数非空值

、、

我有一个包含空值的dataframe： (125, '2012-10-10','tv'), (40, '2012-10-10None, '2012-10-10','tv')] 我需要对s

浏览 1提问于2018-02-06得票数 3

回答已采纳

1回答

如果字符串小于x，请替换为“F.Col”

、、

一行有很多不同的计数，我正在尝试通过将一些不太频繁的不同值转换为类似"Other“的值来减少它。下面我将尝试说明我的df和所需的df。这是我当前的DF： ID Street2 Kent4 Grove1Kent3 Kent5 Other 我想通过计数来做到这一点，因为在我

浏览 11提问于2021-04-12得票数 0

3回答

Pyspark计数包括Nulls

举一个简单的例子-deptColumns = ["dept_namedeptColumns)print('count: ' + str(df.select(F.col|

浏览 1提问于2021-05-08得票数 2

2回答

Pyspark dataframe行式空列列表

、

我有一个spark dataframe，我想创建一个新列，其中每一行都包含列名为null的列。null |null | 包含结果列的最终数据帧是, col_3| 我知道要获取null列的数量，但是要查找在每一行中<

浏览 11提问于2021-05-12得票数 2

1回答

Window.rowsBetween -只考虑满足特定条件的行(例如，不为null)

、、、

现在，我想将一个窗口函数应用到包含涉及前两个行和后面两个行的值的行，这些行也包含值(因此基本上假装所有包含空值的行都不存在=不计入窗口的rowsBetween-range )。实际上，我的有效窗口大小可能是任意的，这取决于包含空值的行数。然而，我总是需要精确的前后两个值。此外，由于包含重要信息的其他列，最终结果应该包含所有行。，则不能指定值不得为null的

浏览 0提问于2018-11-20得票数 4

1回答

PySpark在两个数据流上应用函数，并在小型硬件上为数十亿行写入csv。

、

我试图对dfs中的每个字符串对dfc中的每个字符串应用levenshtein函数，并将得到的数据写入csv。问题是，我使用交叉连接创建了这么多行，然后应用该函数，因此我的机器很难编写任何东西(要花费很长时间才能执行)。试图提高写入性能：，我正在过滤交叉连接结果上的一些东西，即LevenshteinDistance小于目标单词的15%的行。("AccountID").over(w

浏览 7提问于2021-12-14得票数 2

回答已采纳

2回答

计算每个dataframe列中的空值数

、、、

我有一个有很多列的数据格式。我的目标是生成一个dataframe，它列出每个列名，以及该列中的空值数。示例：| Column_Name | NULL_Values || Column_1 | 15 || Column_3 | 18

浏览 1提问于2018-09-12得票数 4

回答已采纳

2回答

如何在火花放电中获得groupBy后每次计数的总数百分比？

value|| a| 1|| a| 3|我希望计算每个类别中的项目数

浏览 2提问于2018-09-10得票数 7

回答已采纳

2回答

尝试应用lambda创建新列时，"'DataFrame‘对象没有属性' apply '“

、、、

我的目标是在Pandas DataFrame中添加一个新列，但我遇到了一个奇怪的错误。 'a': 0, 'c': 1,df['new_column'] =df.apply(lambda row: s

浏览 7提问于2018-06-05得票数 3

回答已采纳

1回答

PySpark:根据当前行值计算行数

、、

我有一个带有“速度”栏的DataFrame。我能否有效地为每一行添加一个列，即DataFrame中的行数，以便它们的“速度”在与“速度”行的+/2之间？

浏览 0提问于2018-06-22得票数 0

回答已采纳

2回答

优化窗口聚合的星图代码

、、、

我正试图为我的数据生成窗口聚合。但是，延迟超过20的时间太长了，我正在Databricks中运行它。我的数据有列：userid, date, orders, total_spend|userid|date |orders, lag): df .agg

浏览 3提问于2022-05-11得票数 0

1回答

使用字典变量的平均电火花群

、

我正在尝试使用mean作为字典变量来执行的均值。'AttributeError GroupedData object has no attribute _func' 我也尝试过从GroupedData类导入pyspark.sql.group类的均值函数，但同样的错误也失败了。

浏览 0提问于2018-10-09得票数 0

回答已采纳

2回答

在中过滤数组

、、、、

如果我有这样的数据['apple', 'banana', 'orange']['apple', 'pineapple', 'grapes'] 我想要过滤每个数组中包含'apple‘字符串的元素，或者，从'app’等开始。我如何在PySpark中实现这一点

浏览 3提问于2021-10-01得票数 1

回答已采纳

3回答

Pyspark :观察到的pyspark数据帧中缺失值的插值

、、

我正在尝试使用spark清理一个未完全填充且相当大的时间序列数据集。我想要做的是将以下数据集转换为____________________________A

浏览 3提问于2018-10-31得票数 4

2回答

在pyspark中创建一列，该列在第一行之后引用其自身

、

我想在pyspark中创建一个列，在第一行之后引用它自己。我知道我必须使用一个窗口函数，但我在创建一个函数时遇到了问题，这个函数实际上是在第一行之后引用自己，而第一行引用了另一列。我觉得它应该像下面这样，但是不确定它是如何工作的，以及你是否可以在创建它的时候引用一个专栏？df = df.withColumn('Column to be created', F.when(F.col</

浏览 17提问于2021-06-02得票数 3

3回答

将PySpark数据过滤为数据格式列表

、、、、

我有一个PySpark数据格式，我想根据某些列中的唯一值进行筛选。columns) column_listnames and number of columns can be changed at runtime. unique_dfs = [df for id, df in pandas_df.groupby(column_list,

浏览 15提问于2022-07-13得票数 1

2回答

C块在函数中？

、、

我在C函数的定义中(在动态窗口管理器的源代码中)发现了块的奇怪用法。 unsigned int modifiers[] = { 0, LockMask, numlockmask, numlockmask|LockMask }; //some

浏览 3提问于2012-07-07得票数 2

2回答

如何用火花放电捕捉组后单词的频率

、

我有一个带有键和值的表格数据，并且这些键并不是唯一的。| i || 1 | me || 1 |table |现在假设此表分布在星火集群中的不同节点上如何使用电火花计算单词相对于不同键的频率？例如，在上面的示例中，我希望输出：| key | value| frequencies | ------------------

浏览 0提问于2019-07-24得票数 2

回答已采纳

1回答

通过比较同一dataframe中两个不同列之间的数据来填充pyspark dataframe中的列

、、、

= y then 'some_status_change' else cdc_status end as cdc_status from dataframe where cdc_status= F.col('preferpathway'))), 'pathwayChange')) 但这会抛出以下错误 ValueError: Cannot convert column into bool:但本质上它们也都是基于字符串的列。我试着到处搜索，但在pyspa

浏览 100提问于2021-05-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云