在pyspark中计算窗口上的列的百分位数

，可以使用pyspark.sql.functions.percentile_approx函数来实现。该函数用于在给定窗口上计算指定列的近似百分位数。

具体使用方法如下：

导入必要的模块：

from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql.functions import percentile_approx

创建SparkSession：

spark = SparkSession.builder.getOrCreate()

加载数据并创建DataFrame：

data = [(1, 10), (1, 20), (2, 30), (2, 40), (2, 50)]
df = spark.createDataFrame(data, ["group", "value"])

定义窗口规范：

windowSpec = Window.partitionBy("group").orderBy("value")

使用percentile_approx函数计算百分位数：

df.withColumn("percentile", percentile_approx("value", 0.5).over(windowSpec)).show()

上述代码中，percentile_approx函数的第一个参数是要计算百分位数的列，第二个参数是百分位数的值（0到1之间）。over函数用于指定窗口规范。

这样，就可以在pyspark中计算窗口上的列的百分位数了。

推荐的腾讯云相关产品：腾讯云分析型数据库TDSQL、腾讯云数据仓库CDW、腾讯云弹性MapReduce EMR。

腾讯云分析型数据库TDSQL：腾讯云提供的一种高性能、高可用、可弹性伸缩的云数据库产品，适用于大数据分析场景。
腾讯云数据仓库CDW：腾讯云提供的一种海量数据存储和分析的云服务，支持PB级数据规模的存储和查询分析。
腾讯云弹性MapReduce EMR：腾讯云提供的一种大数据处理和分析的云服务，支持Hadoop、Spark等开源框架，提供弹性的计算和存储能力。

以上是关于在pyspark中计算窗口上的列的百分位数的完善且全面的答案。

用火花放电识别大量数据的变化

、、、

我有大量的DATE列和RESULT列的数据(大约10亿行)。RESULT列中的值主要是名称，但有时值会有明显的偏差。我只想找出有大偏差的日期。因此，根据输入数据，如下所示： +----------+------+ | DATE|RESULT| +----------+------+ |2020-06-24| 4.2| |2020-05-17| 4.5| |2020-05-11| 4.5| |2020-07-30| 4.2| |2020-07-30| 4.2| |2020-06-29| 4.2| |2020-06-29| 4.2| |2020-03-04|

浏览 2提问于2020-08-22得票数 0

回答已采纳

2回答

用groupBy计算PySpark数据的百分位数

、、、、

我正在尝试groupBy，然后计算PySpark数据的百分位数。我已经根据测试了下面的代码 from pyspark.sql.types import FloatType import pyspark.sql.functions as func import numpy as np qt_udf = func.udf(lambda x,qt: float(np.percentile(x,qt)), FloatType()) df_out = df_in.groupBy('Id').agg(func.collect_list('value').alias(

浏览 0提问于2018-12-14得票数 2

回答已采纳

1回答

按日期将吡火花数据集拆分为两个

、、

我有pyspark数据集，我想按照datetime列将其划分为列车和测试数据集，其中，训练数据集的日期时间应该小于日期时间列的中位数，而测试数据集应该有其余的数据集。我尝试按datetime列对dataset进行排序，并选择上半部分。但是这只解决了火车部件的问题，我不知道如何从PySpark中的初始数据集中“减除”训练数据集。 train = data.orderBy('datetime').limit(data.count() // 2) # test = ? 如果PySpark与Pandas ()函数有某种相似之处，那就太好了，但它没有。

浏览 0提问于2019-08-21得票数 0

回答已采纳

1回答

多列的Pyspark百分位数

、

浏览 62提问于2021-07-28得票数 0

1回答

Locust报告中百分位数列的聚合值是什么？

、、

请说明如何计算百分位数列的聚合值？所以我在Excel中打开了csv结果。黄色方框中的数值不是平均值，不是中位数，不是90%.我不知道他们是什么。 (为了适合屏幕，我已经隐藏了大部分行，所以所选的聚合值对于每列的内容都是不正确的)

浏览 3提问于2022-07-27得票数 0

回答已采纳

1回答

如何在PySpark中对百分位数进行聚合？

、、

我希望能够基于百分位数(或者更准确地说，在我的例子中是补充百分位数)进行聚合。考虑以下代码： from pyspark.sql import SparkSession from pyspark.sql import functions as F spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame( [ ['a', 1, 'w'], ['a', 1, 'y'], ['

浏览 22提问于2020-05-17得票数 0

回答已采纳

1回答

是否正确计算数据集的中位数？

、、、、

我正试图在ssrs 2012中创建一个列，以显示中位成本。我已经搜索了很长一段时间，并编写了一个PERCENTILE_CONT查询来尝试实现这一点。这是我使用的查询： SELECT srt.Name, cast(sum(sr.price) as int) as AvgCost, cast(sum(sr.cost) as int) as AvgTransCost, cast(avg(sr.TotalTimeSpent) as int) as TotalTimeSpent, percentile_cont(.5) WITHIN GROUP(ORDER BY su

浏览 4提问于2014-10-30得票数 0

回答已采纳

1回答

对于熊猫来说，有什么替代的方法来减少火花放电1.6

、、、

我是个新手。我有熊猫代码如下所示。 bindt = df[df[var].notnull()][var].quantile([0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1]).unique() df['{0}_quartile'.format(var)] = pd.cut(df[var], bindt, labels=False, include_lowest=True ) 我在pyflem2.x中找到了“approxQuantile”，但是我在pyflem1.6.0中没有找到任何这样的东西。我的示例输入 df.show() +-----------+---

浏览 5提问于2019-02-21得票数 5

回答已采纳

1回答

火花中的中位数和分位数

、、、

在我的数据中，我有一个年龄列。行总数约为770亿行。我希望使用PySpark计算该列的分位数值。我有一些代码，但计算时间很长(也许我的过程很糟糕)。有什么好办法来改善这一点吗？ Dataframe示例： id age 1 18 2 32 3 54 4 63 5 42 6 23 我到目前为止所做的事： #Summary stats df.describe('age').show() #For Quantile values x5 = df.approxQuantile(

浏览 0提问于2019-05-16得票数 3

回答已采纳

1回答

用群法计算中位绝对百分比误差

、、、

我可以用这个函数来计算中间绝对误差： from pyspark.sql import Window def compute_Median_Abs_Err(df, expected_col, actual_col): grp_window = Window.partitionBy('grp') magic_percentile = F.expr('percentile_approx(abserror, 0.5)') med_abs_err = df.withColumn("abserror",

浏览 11提问于2020-04-13得票数 1

回答已采纳

1回答

如何聚合/汇总百分位数度量

、、、

有一个包含聚合数据的数据集-聚合到各种维度，并向下延伸到每小时级别。主要的衡量标准是速度，即文件大小除以持续时间。要求是查看百分位数、中位数和平均值/平均值摘要。 Mean很简单，因为我们只需在MDX中创建一个计算的度量，然后它就可以在所有聚合级别上工作，即每天/每月等。然而，百分位数和中位数很难。有没有可能对这些函数进行正确汇总的计算？当我们读取原始数据时，我们可以将百分位速度作为一列添加到ETL中，但是我们仍然需要找到一种方法来进一步滚动它？采取这些措施的正确方式是什么？询问百分位数并不少见，所以当我环顾四周时，我很惊讶没有看到太多关于这方面的信息。也许唯一的方法是在正确的级别上使

浏览 0提问于2013-03-02得票数 2

回答已采纳

1回答

Python Pandas -手动计算分位数

、、、

我试图手动计算列值的分位数，但与Pandas的结果输出相比，无法使用公式手动找到正确的分位数值。我四处寻找不同的解决方案，但没有找到正确的答案。 In [54]: df Out[54]: data1 data2 key1 key2 0 -0.204708 1.393406 a one 1 0.478943 0.092908 a two 2 1.965781 1.246435 a one In [55]: grouped = df.groupby('key1') In [56]: grou

浏览 1提问于2017-07-03得票数 3

回答已采纳

2回答

如何使用Spark/Scala在窗口上执行approxQuantile？

、、、

浏览 0提问于2020-04-03得票数 0

回答已采纳

1回答

计算配置单元中的百分位数

、

我的HDFS中有大约4 of的JSON，我已经使用JSON Serde创建了一个Hive表。最终数据预计在25 be左右。该表有10列，全部为int。我需要计算每个“单元格”的百分位数排名，并为每个列插入单独的列。所以我的最终结果是： col1 col2 col3 .... col10 perCol1 perCol2 ... perCol10 100 200 123 423 82.44 58.22 18.42 所以perCol10中的18.42是col10中的423相对于整个col10的百分位数。以前，我使用NumPy数组在内存中使用(小得多)的数据集执

浏览 1提问于2014-08-28得票数 1

1回答

在HiveQL中将变量设置为最大值

、

我想从表totalSpeeds中的一列数据(速度)中获得值的第一个四分位数。为此，我尝试创建一个变量(阈值)，然后选择小于或等于它的值。 SET threshold = (SELECT 0.25*MAX(speed) FROM totalSpeeds); SELECT speed FROM totalSpeeds WHERE speed <= ${hiveconf:threshold}; 此操作失败并返回解析错误。有没有更有效的方法来获得速度的第一个四分位数的上界？或者，有没有办法调整上面的命令以返回第一个四分位数的速度？提前谢谢你，安妮塔

浏览 3提问于2012-11-14得票数 2

1回答

从postgresql 14中的group by查询中获取中值

我有一个查询，其中一个列的类型为date，另一个列的类型为double precision。date列称为trading_day，double precision列称为stock_price。我想要一年2000中每个月的stock_price中值。我的疑问如下： select date_trunc('month',trading_day) as dt_trunc,median(stock_price) from data_price where extract(year from trading_day) = 2000 group by dt_trunc 我不确定我的查询是

浏览 19提问于2021-11-14得票数 0

回答已采纳

2回答

用Excel 2010计算百分位数

、

这是我下面的清单。我在计算95%的电话是在多少毫秒内回来的。 Milliseconds Number of Calls 45 14 46 33 47 40 48 41 49 83 50 114 51 124 52 82 53 89 54 99 55 82 56 72 57 80

浏览 4提问于2013-03-27得票数 3

回答已采纳

1回答

单元中的百分位数计算

、、、

如何使用sql计算蜂巢中的25个百分位数。假设有类别、子类别和销售列。那么，如何计算销售额的25个百分位数呢？我试图在蜂箱中使用percentile(sales, 0.25)，但它引发了一个错误：编译语句时出错:失败: NoMatchingMethodException不匹配(双小数点(2，2))的类org.apache.hadoop.hive.ql.udf.UDAFPercentile。可能的选择: FUNC(bigint，array) FUNC(bigint，double)

浏览 2提问于2020-02-03得票数 2

1回答

计算百分位数桶并将它们附加到R中的现有表中

、

我正在处理R中大约8500行的数据集，并且有一个列，其数据范围从-1000到25。我需要计算每一行中的值相对于列的百分位数，并在相邻的单元格中追加此值。基本上，我需要向表中添加另一列，并为每个值设置相应的百分位数。多个值可以具有相同的百分位数(即: 20.1和20.2都位于第99百分位数)。有人能帮我弄清楚怎么做吗？我成功地创建了一个表，该表告诉每个百分位数的截止值，但是裁剪值与我的数据不完全匹配，因此我不能按.x、by.y等合并表。

浏览 1提问于2016-05-17得票数 0

回答已采纳

1回答

如何使用Python Dataframe API在Apache Spark中找到中位数？

、、、

Pyspark API提供了除median之外的许多聚合函数。Spark 2附带了approxQuantile，它给出了近似的分位数，但精确的中位数计算起来非常昂贵。对于Spark Dataframe中的一列值，是否有更多的Pyspark方法来计算中值？

浏览 3提问于2016-08-03得票数 3

回答已采纳

1回答

Tableau中并排堆叠条形图的总和为100%

、、、

我正在尝试在Tableau中可视化SO开发人员调查。我有一个并排堆叠的条形图。在x轴上，我有工作满意度，按性别划分。(所以，列:工作满意度，性别，两者都是维度)。在y轴上，我有“工作机会最重要的方面”(所以，行:测量值，每个值都是一个计数)。我希望每个条形的总和为100%，因此对于测量值中的每个值，我已将快速表格计算设置为“总百分比”，并使用单元格进行计算，但当我这样做时，每个值在条形图中看起来都等于/100%。有人能告诉我我哪里做错了吗？每个值都应该是某个百分比，所有值的总和为100%。我试着遵循这个教程：

浏览 2提问于2016-04-24得票数 2

1回答

SAS与PySpark (频率、百分比、累积频率和累积百分比)

、、、、

我正在寻找一种在PySpark中重现SAS代码的方法。我找到了。然而，它是在潘达斯。我想确保它确实使用了Spark所能提供的最好的功能，因为代码将使用大量的数据集。 ()，我还在PySpark中找到了计算分布式groupwise累积和的指令，但不确定如何使其适应我的目的。下面是一个输入和输出示例(我的原始数据集将有几十亿行)：输入数据集： state 0 Delaware 1 Delaware 2 Delaware 3 Indiana 4 Indiana ... ... 1020 West Virgi

浏览 5提问于2021-01-19得票数 0

1回答

星火sql百分位数在浮点列上

、、、

根据，百分位数命令应该给出每个数字列的确切百分位数。至少当我的输入是由浮点数组成时--这不是真的。在中，它说百分位数命令只适用于整数。我不明白星星之火sql和hive之间的关系，但它似乎不是只运行hive --否则它就不会更改它的文档。另外，spark的percentile有一个不同的签名，允许它获得一个frequency参数，我也不知道它有什么用途。这是一个具有意外输出的示例： from pyspark.sql import functions as sf d = spark.createDataFrame([[35.138071000000004], [34.1199329999999

浏览 0提问于2019-07-21得票数 2

1回答

在Spotfire表中对标签进行排名、分组和设置

、

我有两个列客户和销售，我想创建一个新的列，其中包含每个“客户”在销售方面的评分(从1到5)。我想做一个销售排名，并将其分成5组，然后设置一个标签1为最高的销售，2为第二组，等等…有没有人知道该用什么表达式？

浏览 46提问于2018-12-20得票数 1

1回答

Gtk+：如何为小部件的宽度设置百分比值？

、、

我有一个由两个GtkPaned小部件组成的应用程序，一个在另一个小部件中，这样应用程序实际上显示了3列。如何将这些列的宽度设置为百分比？例如，第一列占可用宽度的20%，第二列占30%，第三列占50%。我已经尝试将100 GtkButtons (例如)放在应用程序底部的一行中，然后在第一列中添加了另一行，其中包含20个，以此类推。最后，我在所有这些按钮之间创建了一个GtkSizeGroup，但是它没有像预期的那样工作，它们有不同的宽度。此外，不能使用内置CSS主题引擎来设置“宽度”属性。

浏览 2提问于2014-04-02得票数 2

回答已采纳

1回答

如何返回数据集中列的中值？

、、

我想选择dataset列中一个列的中值(中位数是按升序排列的一组值中间的值(例如，字符串的字母顺序)，我现在这样做： List<Row> listRows = dataset.where(dataset.col(column).isNotNull()).orderBy(column) .select(column).collectAsList(); int division = (int) Math.ceil(((double) listRows.size()) / 2); String medianValue = division % 2 ==

浏览 4提问于2022-07-16得票数 0

回答已采纳

1回答

在jmeter的仪表板报告中，第90、95和99%矩阵是什么意思？

、

在jmeter 3.0中，我创建了仪表板报告，但在读取统计数据中的90%、95%和99%等矩阵时遇到问题。这些到底是什么意思？

浏览 75提问于2016-08-05得票数 5

回答已采纳

1回答

熊猫以1级群为基础创建百分位域

、、、

鉴于以下数据框架： import pandas as pd df = pd.DataFrame({ ('Group', 'group'): ['a','a','a','b','b','b'], ('sum', 'sum'): [234, 234,544,7,332,766] }) 我想创建一个新的字段，它计算" group“中每个组"sum”的每个值的百分位数。问题是，我有两个头列，无法解

浏览 3提问于2016-05-07得票数 2

回答已采纳

2回答

如何根据计算得到百分位数的等级

、

有四张表如下： T_SALES的列如下 CUST_KEY，ITEM_KEY，SALE_DATE，SALES_DLR_SALES_QTY，ORDER_QTY。 T_CUST的列如下 CUST_KEY，CUST_NUM，PEER_GRP_ID T_PEER_GRP的列如下 PEER_GRP_ID，PEER_GRP_DESC，PRNT_PEER_GRP_ID T_PRNT_PEEER的列如下 PRNT_PEER_GRP_ID，PRNT_PEER_DESC 现在，对于上面的表，我需要根据父对等体中按对等组计算的fillrate = SALES_QTY / ORDER_QTY *

浏览 4提问于2014-07-02得票数 3

4回答

在列中计算价值百分位数

、、、

我有一个带有数值列的dataframe。这一列不是很好地近似于正态分布.给定另一个数值，而不是此列中的数值，我如何计算其在列中的百分位数？也就是说，如果值大于列值的80%，但小于其他20%，则为第20百分位数。

浏览 2提问于2017-06-29得票数 20

回答已采纳

1回答

如何计算数据框列的平均值并找到前10%

、、、

我对Scala和Spark非常陌生，正在使用棒球统计数据进行一些自制练习。我使用case类创建一个RDD并为数据分配一个模式，然后将其转换为DataFrame，这样我就可以使用SparkSQL通过满足特定条件的球员的统计数据来选择球员组。一旦我有了我感兴趣的球员的子集，我想进一步寻找一列的平均值；例如击球率平均值或打点。从那里我想根据所有球员的平均表现将所有球员分成百分位数组；前10%，后10%，40%-50% 我已经能够使用DataFrame.describe()函数以字符串的形式返回所需列(mean、stddev、count、min和max)的摘要。有没有更好的方法来获得均值和stdde

浏览 3提问于2015-07-22得票数 3

1回答

R:用哪一个()来输出分位数()？

、、

因此，我试图从数据框架df中获取列a中的值，这是b列的第90百分位数。 p = quantile(df$b, c(0.9)) 在此之后，我希望使用它来获取值的行号，这样我就可以使用它来获得列a中的相应值： which(df$b == p) 但出于某种原因，它只是提供了一个输出 integer(0) 我用实际值( 1.68 )替换了变量p，它成功了，并且用1.68来创建另一个变量也是有效的，但是用分位数的结果来使用它永远不会给出正确的值。我试过使用as.numeric，使用p[[1]]和as.double。结果没有任何改变。任何帮助都是值得赞赏的，以了解为什么会发生这种情况，以及是否有其他方法

浏览 2提问于2017-08-15得票数 2

回答已采纳

1回答

近似百分位数的计算

、、

当使用sparks percentiles_approx函数计算声明性SQL中的近似百分位数时，有时我发现这个函数非常慢。我已经将准确度降低到100 (聚合需要大约5分钟)，或者有时是1000 (20-30分钟)。这比默认的10k精度低10倍。我观察到，得到的百分位数有点匹配，但当真正深入到细节中，并对许多组进行计算时，即每天一个百分位数，它们根本不匹配。事实上，当尽可能多地对数据进行预汇总并保留所有数字列(即删除任何非数字内存密集型列)时，就有可能使用一个简单的熊猫中位数，它比星火更精确，速度更快。我选择的准确度太低了吗？但是1000已经花费了很长的时间来计算(我有>> 1聚

浏览 4提问于2020-04-29得票数 0

回答已采纳

1回答

是否可以将条件count()添加到groupby数据帧中，其中条件是groupby结果？

、、、

我有一个名为limitData的两列数据框架，其中第一列是CcyPair，第二列是交易概念 CcyPair,TradeNotional USDCAD,1000000 USDCAD,7600 USDCAD,40000 GBPUSD,100000 GBPUSD,345000 etc 每个CcyPair有大量的CcyPair和TradeNotional。从这里我生成汇总统计信息，如下所示 limitDataStats = limitData.groupby(['CcyPair']).describe() 这已经很简单了。但是，我想在sumStats中添加一个列

浏览 1提问于2018-02-07得票数 0

回答已采纳

1回答

不同窗格中类别的总百分比

我正在尝试根据每个窗格中的第一列计算总数的百分比。但是，表计算只允许基于每个窗格进行计算 SUM({ FIXED [Category]:SUM([Number of Records])})/TOTAL(SUM([Number of Records])) 不会产生预期的结果。它只是简单地测量类别中的总记录数。我无法将TOTAL函数固定为category，因为它是一个表计算。在图像中，本质上我试图将所有相同颜色的条形聚集在一起，而不调整它们的高度。 ? enter image description here

浏览 13提问于2019-06-20得票数 0

1回答

使用百分位数/中位数的ES时间序列数据

、

使用Elasticsearch，我知道我可以做一些很好的时间序列数据查询，得到平均值/最大值等。但是，是否有可能只将90%的百分位数包括在计算中，特别是在Kibana？对如何做到这一点有什么想法吗？

浏览 6提问于2014-02-13得票数 4

回答已采纳

1回答

解释二维数组的百分位值

、、

我在三个不同的时间收集了数据- 最新收藏 receivedtime newCol 0 1.536596e+12 43.000000 1 1.536596e+12 100.000000 2 1.536596e+12 180.000000 3 1.536596e+12 50.000244 4 1.536596e+12 3792.999756 5 1.536596e+12 897.000000 6 1.536596e+12 11343.000000 7 1.536596e+12 374.000000 8

浏览 0提问于2018-09-25得票数 1

回答已采纳

1回答

返回数组仅包含满足特定条件的行。

、

我需要根据特定的分组来确定一组数据的百分比组，所以我需要为PERCENTILE.EXC函数获得一个数组，但只需要满足特定条件的值。我无法发布实际数据，因此这里有一个相同概念的粗略示例。如果我有这个数据集：我现在需要为每个组合的群体和性别获得一个独立的百分位数，这样我就可以得到1M，1F，2M，2F的第90个百分位数。实际上，我只希望在组列和性别列满足条件的情况下返回等级值，这样我就可以这样创建一个表：并自动将公式填充到表中，以便进行所有可能的组合。现在，我的数据要长得多，有10多行行、250+组合和未排序，但公式应该保持不变。我觉得我的桌子上第一个正方形(1M)应该

浏览 1提问于2022-09-16得票数 0

1回答

如何修复返回#VALUE的Excel编码

、

我在Excel中有一个列，它根据另一列上的字符串返回值。例如，A列包含字符串： "(1) Missing Data For 1 Runs..(20%)" 在B列中是："20"。列B中的公式为： "=IF(ISBLANK(N14),"",(MID(RIGHT(N14,9),SEARCH("(",RIGHT(N14,9))+1,SEARCH(")",RIGHT(N14,9))-SEARCH("(",RIGHT(N14,9))-1)+0)*100)". 此公式适用于具有不同百分比的相

浏览 13提问于2019-04-02得票数 0

回答已采纳

1回答

如何创建函数，以求Pyspark数据中列的中值

、、

我想用Pyspark.How中的中值替换null值，我能这样做吗？

浏览 2提问于2020-10-01得票数 0

回答已采纳

1回答

R中变异列:根据另一列条件从列中减去值

、

对于这个模糊的问题标题，我感到很抱歉，而且由于我不能想到一个简明的问题名称，我可能错过了一个已经存在的答案。如果有人有标题建议，我很乐意编辑！ (1)我有一个带有id、值和基线列的数据，它要么是空白的，要么是Y (2)，我希望根据异常值过滤数据，然后创建一个包含异常值的表和一个从基线中减去值的列(每个id)。 set.seed(42) test <- data.frame(id = c(rep("A", 5), rep("B", 5), rep("C", 5)), values = rnorm(15,

浏览 1提问于2019-11-27得票数 1

回答已采纳

1回答

数据密集型应用书设计中的读取响应时间百分位数

、

在一书中，有一句话：例如，如果第95百分位数的响应时间是1.5秒，这意味着100个请求中的95个少于1.5秒，而100个请求中有5个需要1.5秒或更长时间。令人困惑的是，有句话说，这些请求中的95项将花费不到1.5秒。这不是应该说，95的请求需要1.5秒或更短的时间，而其余的5项请求需要超过1.5秒吗？或者，第95个百分位数的1%只需1.5秒，第89百分位数及以下的百分位数小于1.5，而第96位及以上百分位数的百分比则超过1.5？这些数字的正确读数是多少？我对此做了一些研究，并发现了几篇文章。有趣的是，有些人说我说的话，有些人不说。读取的部分链接(百分位数)类似于95个请求，所

浏览 6提问于2020-11-28得票数 0

1回答

计算百分位数- Excel与联机

、、、

我有一组数据，比如{4,7,7,10,10,12,12,14,15,67}，我想知道第95百分位数。我使用Excel和在线计算器。两人给出了不同的答案。在Excel中，我使用的公式是：=PERCENTILE.INC(A1:A10,0.95)和result = 43.6 但是这个产生了一个67的结果哪一个是对的？

浏览 0提问于2018-02-15得票数 1

回答已采纳

1回答

rrdtool:在滑动窗口内计算数据的第95百分位数

我正在使用rrdtool来绘制由生成和存储的CPU使用情况的数据。Munin (至少对我们来说)将每个数据序列存储在一个.rrd文件中，其中包含12 RRAs："MIN“、"MAX”和"AVERAGE“，四个周期中的每一个周期分别为”5米间隔的最后2d“、”30m间隔的最后9d“、”12h间隔的最后270天“和”每隔144 d间隔的最后177 y“。我已经知道如何使用rrdtool graph生成一个趋势线，显示我的平均CPU使用量。(为了简单起见，我们可以假装我是在一个单CPU系统上；在现实生活中，我有更多的代码要处理。) rrdtool graph /tmp/fo

浏览 3提问于2015-02-19得票数 3

2回答

在SQL中计算百分位

、、、

这应该是非常简单的，但作为SQL的新手，我真的很挣扎。有人建议我对连续(非离散)数据使用PERCENTILE_CONT。所讨论的数据涉及两列：(1)患者列表的in和(2)每年的平均事件数。使用我在网上找到的一些代码，这就是我要做的 SELECT ID, percentile_cont (0.25) WITHIN GROUP (ORDER BY PPPY ASC) OVER(PARTITION BY ID) as percentile_25, percentile_cont (0.50) WITHIN GROUP (ORDER BY PPPY ASC) OVER(PARTITION BY I

浏览 20提问于2018-07-26得票数 5

1回答

用百分位数替换为DolphinDB update语句？

我希望用第五百分位数替换小于第五百分位数的perform列中的值。我能用以下方法来实现吗？ update ljdata set perform=percentile(perform, 5) where perform<percentile(perform, 5)> 我有示例数据百分位数(perform，5)= -15.77，但是在执行这个句子之后，所有小于-15.77的原始值都被-61.38替换。我怎样才能改正呢？提前感谢您的帮助！

浏览 4提问于2022-02-03得票数 3

1回答

OleDbCommand.Prepare方法要求'14‘类型的参数具有显式设置的精度和小数位数

、、、、

使用Visual Studio2010，但在尝试使用DataSet设计器时遇到错误。错误如主题所述，"OleDbCommand.Prepare方法要求类型为'14‘的参数具有显式设置的精度和小数位数“。我已经在TableAdapter中创建了一个查询，该查询连接几个表，并从连接中返回四列。然后，我尝试在设计器的DataTable中添加列，并收到错误消息。在输入查询后，在TableAdapter配置向导结束时也会出现此错误。 The wizard detected the following problems when configuring the TableAdapter:

浏览 2提问于2011-10-20得票数 1

回答已采纳

1回答

如何使用spark统计数据？

、、、、

我正在使用spark-sql-2.4.1v，并尝试在给定数据的每一列上查找分位数，即百分位数0、百分位数25等。当我做多个百分位数时，如何从结果中检索每个计算出的百分位数？下面是一个示例，数据如下： +----+---------+-------------+----------+-----------+ | id| date|total_revenue|con_dist_1| con_dist_2| +----+---------+-------------+----------+-----------+ |3310|1/15/2018| 0.010680705|

浏览 16提问于2020-03-05得票数 0

回答已采纳

3回答

T-SQL:从列中计算第N百分位数

、

我有一列数据，其中有些是空值，我希望从中提取单个90百分位数的值。 ColA ----- NULL 100 200 300 NULL 400 500 600 700 800 900 1000 对于上述情况，我正在寻找一种技术，它在搜索第90百分位数时返回值900，对于第80百分位数返回值800。类似的函数是AVG(ColA)，它对上述数据返回550，或MIN(ColA)，返回100等等。有什么建议吗？

浏览 3提问于2012-08-10得票数 7

回答已采纳

2回答

Excel 2010只有在不同的列中有指定的数字时，如何才能计算列中数字的百分位数

、、

请原谅我，我充其量只是一个优秀的中级excel用户。我在试着计算消防部门的呼叫时间数据，这些数据是按车站编号组织的。 C列是站号，L列是时间。只有当C列是27时，我才需要计算L列的0.9百分位数。我知道这是一个以=PERCENTILE开头的嵌套公式(但从那里我似乎找不到正确的路径。我已经尝试了if，if，countif，vlookup和其他一些方法。有谁能给我指个方向吗？谢谢大家。麦克

浏览 8提问于2017-07-21得票数 0