Pyspark:用于标准开发和分位数的窗口函数生成NaN和Nulls

文章/答案/技术大牛

发布

1回答

尝试计算stddev和25,75个分位数，但它们产生NaN和null值 # Window Time = 30min Input: field: field to generate stats with window: pysparknull|

浏览 28提问于2020-09-04得票数 0

1回答

在具有collect_list值的数字列上使用窗口函数的Pyspark和其他聚合

、、、

我试图使用窗口操作来实现它，但是我看到了一些使用float列的NaN值的奇怪行为from pyspark.sql import))) .withColumn('prefered_sub_type', F.first('sub_type').over(name_window.orderBy(col('type').desc_nulls

浏览 5提问于2022-09-14得票数 0

2回答

pyspark根据ID计算四分位数，并根据四分位数范围进行分类

、、、

我使用的是pyspark 1.5.2。我有一个包含"ID“和"Height”列的pyspark dataframe，如下所示：----------20| 001| 220|我想要计算每个"ID2“的高度的四分<

浏览 29提问于2018-07-25得票数 1

回答已采纳

1回答

Python -计算加权滚动标准差

、、

我有一分钟一分钟的熊猫数据df。我希望将加权应用于返回和计算滚动加权标准差，其窗口= 10。()weighting Midpoint Return 10mVol Weighted0.8 215.8400 -0.000788 <

浏览 2提问于2016-10-21得票数 0

回答已采纳

2回答

用groupBy计算PySpark数据的百分位数

、、、、

我正在尝试groupBy，然后计算PySpark数据的百分位数。我已经根据测试了下面的代码import pyspark.sql.functions as func 这是因为numpy版本(1.4.1)，百分位数

浏览 0提问于2018-12-14得票数 2

回答已采纳

2回答

数据科学中的连续数据或分类数据

、、、、

我发现很少有像模式、中位数、平均值这样的函数可以用来填充给定数据中的NaN值。但我应该选哪一个呢？如果数据是绝对的，它必须是模式或中位数，而对于连续的，它必须是平均或中位数。因此，为了定义数据是绝对的还是连续的，我决定建立一个机器学习分类模型。我做了几个特征比如，2)数据中唯一值的数目4)唯一行数之比 5)数

浏览 0提问于2018-01-26得票数 4

1回答

R: runif生成NAN

我想生成一些与分位数函数相对应的数据。但是数据需要一个min和一个max值。a1+a2*a3*((-log(x))^(1/a4)))/(a3*((-log(x))^(1/a4))+1)当我在runif函数中使用min和max时，会产生NaN。我怎样才能改进这段代码来避免NaN的出现呢?我

浏览 9提问于2017-07-05得票数 1

回答已采纳

1回答

如何在PySpark中使用窗口函数？

、、、、

我正在尝试为数据框使用一些窗口函数(ntile和percentRank)，但我不知道如何使用它们。具体地说，我正在尝试获取数据框中数值字段的分位数。我使用的是spark 1.4.0。

浏览 1提问于2015-08-06得票数 24

回答已采纳

2回答

Spark Dataframe移动百分位数

是否有一个干净的方法来计算移动百分位数在星火数据。因为这里似乎没有在API中实现的中位数、percentile_approx、Percenti

浏览 2提问于2017-08-30得票数 2

回答已采纳

2回答

生成具有高斯分布的0和1之间的随机数

、

我想在C#中写一个方法，生成一个在[0:1]范围内具有高斯分布的随机数(提前在0-x中)。

浏览 0提问于2013-04-12得票数 7

回答已采纳

1回答

计算具有结构列类型的PySpark数据框中的空值或零

、、

我有一个混合了整数列、字符串列和结构列的PySpark数据框架。结构列可以是结构，但也可以只是null。null |4 | something | null |有没有什么简单的方法可以遍历整个数据帧并获得null/na/0值的计数，而不必分解结构列？例如，我想要上面的-------

浏览 0提问于2021-11-27得票数 0

1回答

对于熊猫来说，有什么替代的方法来减少火花放电1.6

、、、

bindt, labels=False, include_lowest=True )df.show()|['{0}_quartile'.format(var)] = pd.cut(df[var], bindt, labels=False, inc

浏览 5提问于2019-02-21得票数 5

回答已采纳

1回答

在BigQuery中使用中值插值

我有一个查询，它可以识别某些内容的长度随时间的变化，从而能够在数据似乎丢失时填补空白。by book order by read_timestamp ROWS BETWEEN 20 PRECEDING AND 20 FOLLOWING) 在bigquery (遗留)中，我想它应该是这样的：我可能把事情复杂化了.原始配置单元解决方案是在深夜完成的:)

浏览 1提问于2016-08-12得票数 1

1回答

如何计算百分位数并在一次传递中使用生成器进行排序？

、、、、

构建更早的问题：下面是一

浏览 1提问于2012-07-04得票数 1

回答已采纳

1回答

用条件二进制指示符填充缺失值

、、、

我正在寻找一种方法，以填补1或0的缺失值，根据条件评估另一个特征变量。1GOT 325 0我想用这样的条件来填充缺失的值:如果Time_watched大于显示的平均/3分位数time_watched，则填充1其他0

浏览 4提问于2020-10-27得票数 0

回答已采纳

4回答

如何从VBA函数将范围传递给Excel公式

、、

我正在编写一个函数来生成平滑图的移动平均值。我需要使用四分位数范围来调整平滑公式。如何将QuartileRange传递给Evaluate函数以返回该范围的四分位数值，以便在函数中使用它？该函数按以下方式调用哪里 4是要使用的值数和</em

浏览 2提问于2012-10-05得票数 2

回答已采纳

1回答

来自不同数据集的百分位数组合:这是如何实现的？

、、

我需要计算一系列相关但分段的数据集的第N百分位数。关于这些数据的其他信息：我能不能计算出合并的中位

浏览 1提问于2011-11-15得票数 4

2回答

平行计算柱的统计量

、、

蜂巢和星火的统计数据是不同的：看起来有相当多的统计数据是经过计算的。假设我想计算一些其他的函数，比如每个列的标准偏差--这怎么可以并行完成呢？

浏览 0提问于2018-09-12得票数 1

回答已采纳

2回答

在Matlab中求正态分布的sigma

我有正态分布的平均值和百分位数60。我需要在Matlab中用这两个值来获得一个随机数组。这在某种程度上有可能吗？谢谢

浏览 0提问于2014-03-20得票数 1

1回答

计算相邻标准差法向曲线下面积的r函数

、、

我正在研究GoF (GoF of fit)测试，并想知道数据向量的分位数是否遵循正态分布N(0，1)的预期频率，在运行卡方检验之前，我为正态分布生成了这些频率：(Normal_distr <- c(pno

浏览 0提问于2015-12-12得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云