pandas数据帧上的分位数归一化_基于分位数的采样数据帧(pandas)_R中的分位数归一化 - 腾讯云开发者社区

normalization、bioinformatics、anova

我想进行一个方差分析来识别差异表达的基因。在寻找差异表达的基因之前，我应该使用分位数归一化或中位数绝对偏差来缩放数据，还是应该直接对通过RMA获得的数据应用方差分析？提前谢谢你

浏览 3提问于2011-03-02得票数 1

1回答

从0到100的Dataframe百分比计算

python、pandas、dataframe、percentile

我需要计算数据帧中值的百分位数。按照其他人的建议计算百分位数的最接近方法是使用pandas.DataFrame.rank(pct=True) ()。但是，该方法不会从第0个百分位数开始： num = pd.DataFrame([3,5,6,8]) num.rank(pct=True) 0 0 0.25 1 0.50 2 0.75 3 1.00 有没有更好的方法来获得这样的东西，从0%到100%： 0 0 0.00 1 0.33 2 0.66 3 1.00 提前谢谢。

浏览 5提问于2018-04-06得票数 0

2回答

Python相当于Excel的PERCENTILE.EXC

python、pandas、statistics、quantile

我正在使用Pandas来计算一些金融风险分析，包括风险价值。简而言之，为了计算风险价值(VaR)，您需要获取模拟投资组合价值变化的时间序列，然后计算特定的尾部百分位数损失。例如，95%的VaR是该时间序列中的第五个百分位数。我的时间序列存储在Pandas数据帧中，目前正在使用pd.quantile()函数来计算百分位数。我的问题是，VaR的典型市场惯例是使用排他性百分位数(即95%的VaR被解释为:您的投资组合有95%的可能性不会超过计算值)-类似于MS Excel PERECENTILE.EXC()的工作方式。Pandas quantile()的工作方式类似于Excel的PERCENTIL

浏览 75提问于2016-07-27得票数 4

回答已采纳

1回答

我的熊猫lambda地图哪里错了？

python、numpy、pandas、lambda

我正在尝试找出第二个数据帧中的观察值所属的数据帧的百分位数，我认为lambda函数在这里可以做到这一点： df1.var1.map(lambda x: np.percentile(df2.var1, x)) 对于df1.var1序列中的每个x，应用函数np.percentile(df2.var1, x)，该函数可以找到df2.var1序列中x的百分位数。出于某种原因，我得到了一个错误 kth(=-9223372036854775599) out of bounds (209) 209是df2的长度，但我不知道kth部分指的是什么。你知道我哪里做错了吗？完全错误： ValueError

浏览 0提问于2015-12-11得票数 0

1回答

从dataframe中移除不遵循平均趋势的行

python、pandas

我正在尝试从GPS坐标的数据框中删除不同于“平滑路径”的值。一条平滑的路线应该是一条所有值都在整体趋势范围之外的路线。我希望它是简单的，而不是使用其他大型包(如scipy)。` 一个问题是，前几个值可能是不正确的，因此无法使用。数据帧可以是从几个点到几千个点的任何大小。我认为对于较小的数据集，这会更加困难。最小示例： import pandas as pd df = pd.DataFrame({'a': {0: 52.1, 1: 5.2, 2: 5.3, 3: 5.2, 4: 5.4, 5: 0.0, 6: 5.2}, 'b': {0: 3.0, 1:

浏览 25提问于2021-07-08得票数 0

1回答

熊猫分位没有得到南的礼物

python-2.7、pandas、quantile

我在计算四分位数范围时遇到了一个有趣的情况。假设我们有一个数据文件，例如： import pandas as pd index=pd.date_range('2014 01 01',periods=10,freq='D') data=pd.np.random.randint(0,100,(10,5)) data = pd.DataFrame(index=index,data=data) data Out[90]: 0 1 2 3 4 2014-01-01 33 31 82 3 26 2014-01-02

浏览 1提问于2014-06-04得票数 8

1回答

从numpy数字化计算垃圾箱的百分位数？

python、pandas、numpy、histogram、percentage

我有一组数据和一组创建bin的阈值： data = np.array([0.01, 0.02, 1, 1, 1, 2, 2, 8, 8, 4.5, 6.6]) thresholds = np.array([0,5,10]) bins = np.digitize(data, thresholds, right=True) 对于bins中的每个元素，我想知道基本百分位数。例如，在bins中，最小的存储箱应该从第0个百分位数开始。然后是下一个仓位，例如，第20个百分位数。因此，如果data中的值落在data的第0和第20个百分位数之间，则它属于第一个bin。我已经调查过pandas rank(pc

浏览 2提问于2016-09-03得票数 2

1回答

Pandas:在[25%和75%]范围内计算平均值和标准差

pandas

我有以下代码，它为我的数据帧计算一些聚合： def percentile(n): def percentile_(x): return np.percentile(x, n) percentile_.__name__ = 'percentile_%s' % n return percentile_ df_type = df[['myType', 'required_time']].groupby(['myType']).agg(['count', 'min'

浏览 2提问于2018-09-27得票数 0

1回答

检查Pandas Dataframe中的异常值

python、pandas

我在一个包含8个电极的传感器上做了一个实验。上图是电极输出随时间变化的曲线图。正如您在图中看到的，8个电极中的一个明显是异常值(可能是由于某些电气故障)。该图是由Pandas DataFrame生成的，它基本上有10列(1列表示时间，8列表示电极，1列平均8个电极)。在统计上检测某一列是否为异常值的最佳方法是什么？我想可以将离群列从数据帧中删除。谢谢!

浏览 0提问于2018-01-04得票数 3

回答已采纳

2回答

过滤掉python pandas中两个百分位数之间的数据

python、pandas、numpy

我有pandas数据帧，我想要消除列的极值。例如:我有一个叫做df的pandas数据框，还有一个叫做percentage的列。我想根据以下条件过滤出数据框，根据percentage列中的值消除前10个百分位数和最后10个百分位数。我想把它过滤到10%到90%。我想到了以下几点， df[(df.percentage > np.percentile(df.percentage, 10 )) & (df.percentage < np.percentile(df.percentage, 90 ))] 这是正确的方法吗？或者有人可以推荐更快的方法吗？

浏览 30提问于2019-04-28得票数 1

回答已采纳

1回答

几个类别值的前五位数

r、loops、dataframe、unique

通常，我希望获得一列分布的数据帧的最高五分之一。但是，它必须是另一列的每个唯一分类值的前五分之一。我想这必须通过几个步骤来完成，可能需要一个循环。首先，我需要根据唯一的类别值分离数据帧，然后只保留每个新数据帧的最高五分之一，最后再次将数据帧行绑定在一起。但我不知道该怎么做。以下是一些示例数据： dat <- data.frame(x = rep(letters[1:3],times = 5), y = rep(1:3,each = 5)) > dat x y 1 a 1 2 b 1 3 c 1 4 a 1 5 b 1

浏览 14提问于2017-06-27得票数 0

回答已采纳

2回答

Pandas数据帧每第n行重新采样一次

pandas

我有一个脚本，可以将系统日志文件读取到pandas数据帧中，并从这些数据帧生成图表。图表适用于较小的数据集。但当我面对更大的数据集时，由于更长的数据收集时间框架，图表变得太拥挤而无法辨别。我计划对数据帧进行重采样，以便如果数据集超过一定大小，我将对其进行重采样，以便最终只有SIZE_LIMIT行数。这意味着我需要过滤数据帧，这样每个n= actual_size/SIZE_LIMIT行都会聚集到新数据帧中的一行。agregation可以是平均值，也可以是第n行。我对熊猫不是很熟悉，所以可能错过了一些明显的方法。

浏览 2提问于2013-01-30得票数 4

回答已采纳

2回答

基于分位数的采样数据帧(pandas)

python、pandas

我有一个数据帧，我想基于参数num_samples对其进行采样。我想基于年龄跨分位数进行均匀采样。例如，如果我的数据帧有1000行和num_samples = .5，我将需要采样500行，但从每个分位数采样125行。我的数据帧的前几条记录如下所示： Age x1 x2 x3 12 1 1 2 45 2 1 3 67 4 1 2 11 3 4 10 18 9 7 6 45 3 5 8 78 8 4 7 64 6 2 3 33 3 2 2 我如何在python/pandas中做到这一点？

浏览 22提问于2021-04-23得票数 1

回答已采纳

1回答

pandas中使用概率列的随机抽样行

python、pandas、random

我正在使用python和pandas从数据帧中随机抽取样本。我的数据帧如下所示：第一列包含时间，第二列是平均速率，第三列是1-sigma，第四列是与该行描述的事件相关的概率。 ? 我知道我可以使用下面的代码来绘制加权样本： random=df.sample(n=100000, replace=True, weights='P>0', axis=0) 但我不确定在这里使用概率是正确的“权重”。简而言之，我需要具有较低P>0的值的采样频率低于具有P>0的值的采样频率。有人愿意在这方面分享意见/不同的选择吗？谢谢!

浏览 24提问于2020-04-24得票数 1

回答已采纳

1回答

在Scala Spark中，如何根据列的百分位值过滤数据帧

scala、apache-spark

假设我有这个数据帧： val df = Seq(("Mike",1),("Kevin",2),("Bob",3),("Steve",4)).toDF("name","score") 我想过滤这个数据帧，以便它只返回"score“列大于等于第75个百分位数的行。我该怎么做呢？非常感谢，祝你有愉快的一天！

浏览 1提问于2020-11-03得票数 0

1回答

与每列的中位数进行比较

pandas、multiple-columns、median、operation

如何与pandas数据帧中每一列的中位数进行比较，如果值大于中位数，则结果为true；如果值小于中位数，则结果为false？现在我正在标准化，所以基本上比较每一列的0(平均值)。我想要一种方法来对median做同样的事情。

浏览 2提问于2019-06-28得票数 1

1回答

用于从Python Pandas中的第一行开始计算值的函数

python、pandas、numpy

pandas中有没有函数来模拟excel公式，如‘=sum($A$1:A10’(第10行))，即公式应该从第1行开始滚动数据。 Pandas滚动函数需要一个整数值作为窗口参数。

浏览 17提问于2016-09-21得票数 0

回答已采纳

1回答

基于列表的Pandas数据帧过滤

python、pandas

我正在处理pandas dataframe中的十项全能数据集。我在下面的代码中计算了每年的异常值。然而，我在过滤pandas的计算值时遇到了一个问题。数据集文件的屏幕截图(转置)：Dataset 异常值的箱线图截图：Boxplot good = [] bad = [] for item in df['yearEvent'].unique(): value=df[df['yearEvent']==item].Totalpoints a=value.quantile(0.25) b=value.quantile(0.75) c

浏览 19提问于2019-12-13得票数 0

1回答

使用dplyr根据每列的分位数过滤每一列

r、dplyr

给定一个数据框架，我想使用每一列的分位数来过滤每一列。我更愿意使用dplyr/tidyverse来完成这一任务。 set.seed(23) df <- data.frame( x1 = runif(10, 0, 100), x2 = runif(10, 0, 100), x3 = runif(10, 0, 100) ) df > df x1 x2 x3 1 57.66037 86.59590 58.63978 2 22.30729 70.14217 27.47410 3 33.18966 39.04731 14.76570

浏览 0提问于2018-08-21得票数 3

回答已采纳

2回答

如何在R中循环数据帧的列，并将每列的分位数()输出为新数据帧中的一行

r、dataframe

我正在尝试计算数据帧中每一列的百分位数，以将其存储为新数据帧中的行。然后，我将根据我的数据中的不同子组，将这个新的df绘制为由不同包装的折线图。但是我当前的尝试结果是一个空的，没有更新的df。我可以在单个指定的列上执行以下操作： dataframe: col1 1 15 2 24 3 23 4 25 5 25 sequence <- seq(from=0, to=1, by=0.01) quantiles_df <- as.data.frame(quantile(df$col1, sequence)) 我可以执行以下操作来绘制多个直方图，使

浏览 0提问于2019-01-19得票数 0

2回答

基于列和的分位数的子集数据(列)

r、dataframe、subset

有没有一种聪明的方法可以根据列和的分位数从数据帧中选择列？例如，仅从数据帧中选择列总和位于第一个分位数的列。我可以基于列和对数据进行子集，也可以计算列和的分位数，但是有没有好的方法来组合这些分位数呢？谢谢。 # e.g. subset data - select columns whose column sums are less than 5 mydata <- mydata[,colSums(mydata) < 5] # e.g create quantiles on colSums mydata_cs <- colSums(mydata) quart.mydata_c

浏览 1提问于2013-01-23得票数 0

回答已采纳

2回答

从DataFrame中过滤离群值

python、dataframe、filtering、outliers

我有一个很大的问题，过滤我的数据。我在stackoverflow和其他页面和教程上读了很多，但我无法解决我的具体问题……代码的第一部分将数据加载到python中，如下所示： import numpy as np import pandas as pd import matplotlib.pyplot as plt from arch import arch_model spotmarket = pd.read_excel("./data/external/Spotmarket_dhp.xlsx", index=True) r = spotmarket['Price

浏览 54提问于2018-06-09得票数 1

回答已采纳

2回答

pandas vs sasdataset，值完全正确

python、pandas、numpy、sas

在读取pandas之前，数据将在sasdataset中使用。我的数据看起来像 SNYDJCM--integer 740.19999981 在读取到pandas之后，我的数据发生了如下变化 SNYDJCM--converting to float 740.200000 如何在读取pandas数据帧后获得相同的值，步骤如下： 1) import pandas as pd 2) pd.read_sas(path,format='sas7bdat',encoding='iso-8859-1') 需要你的帮助

浏览 20提问于2020-01-14得票数 0

1回答

如何找到用于颜色跟踪的RGB/HSV颜色参数？

algorithm、image-processing、color-tracking

我想跟踪一组图像中的一种颜色。出于这个原因，我使用了中提到的恒定阈值算法。这个方法简单地标记了所有那些在最小和最大阈值之间的像素，红色，绿色，蓝色(或者在我的例子中是色调，饱和度，值)。我的问题是，尽管HSV对光线条件的变化不那么敏感，但我仍然希望从程序中设置阈值，以最大限度地减少假阳性和假阴性的数量。换句话说，该算法将确保最终只标记给定的一组像素，例如校准图像上的矩形。我知道这个问题是在6维参数空间中搜索，我可以提出可能的解决方案，但我正在寻找其他程序员对此主题的意见和经验。如果这很重要，我会尝试用在C++中实现它。

浏览 5提问于2009-10-05得票数 3

回答已采纳

1回答

Pandas滚动应用乘法

pandas、apply、product、rolling-computation

我本以为这是pd.DataFrame().rolling()或pd.Series().rolling()的基本应用程序，但pandas滚动函数似乎不能处理应用于滚动窗口的标量乘法；我希望我错了，有人能发现错误。我尝试取一个序列(或数据帧)的滚动窗口，并将该序列/数据帧的每一行乘以一个权重的序列/数据帧(这些权重已经预先计算好了)。我认为应该可以工作的代码是： data.rolling(5).apply( lambda x: x*weights ) 使用 data = pd.Series( np.random.randint(1,101,2000) ) weights = pd.Serie

浏览 183提问于2021-03-31得票数 1

2回答

如何检测时间序列数据帧中的离群值并将“干净”的数据帧写入新的数据帧中

python、pandas、dataframe、outliers

我对Python (和一般的编程)非常陌生，我正在分析两年来每10秒测量一次的气象数据，总共有12个气象参数，我已经创建了我的数据帧df，其中时间作为我的行索引，气象参数的名称作为列名。因为我不需要超级粒度，所以我将数据重新采样为每小时的数据，所以数据帧看起来像这样。 Time G_DIFF G_HOR G_INCL RAIN RH T_a V_a V_a_dir 2016-05-01 02:00:00 0.0 0.011111 0.000000 0.013333 100

浏览 26提问于2020-10-04得票数 1

回答已采纳

2回答

Python关联(.corr)结果为数据帧

python、dataframe、jupyter-notebook、correlation

我正在使用名为"mpg_data“的数据集运行以下代码。 mpg_data.corr(method='pearson').style.format("{:.2}") 结果，我得到了我需要的表形式的数据。然而，当我试图将这些结果赋值给一个变量，以便我可以将它们作为可用的数据帧来获取时，执行以下操作： results = mpg_data.corr(method='pearson').style.format("{:.2}") 结果，我得到了： <pandas.formats.style.Styler object at

浏览 4提问于2018-01-08得票数 0

3回答

如何将DASK数据帧放入MySQL数据表？

python、dask、dask-dataframe

我从CSV文件中获取了数据，并将其保存在我的Dask数据帧中并对其进行操作。然后，我需要将数据写入数据表。我还没有真正遇到过任何解决方案。Pandas的to_sql函数具有内置的功能，所以我不确定是否需要首先转换为Pandas？我目前认为，将Dask数据帧转换为Pandas会导致它被完全加载到内存中，这可能会违背最初使用Dask的目的。将Dask数据帧写入datatable最好、最快的方法是什么？

浏览 4提问于2020-03-27得票数 1

1回答

使用盒图检测到的异常值较少

r、boxplot、quantile、iqr

我想用分位数和1.5*IQR来确定数据帧中的异常值。我使用了盒图函数，并将得到的异常值与使用分位数和iqr计算的异常值进行了比较。我注意到这两种方法的不同之处。盒图方法检测到的异常值少于Q1-1.5*IQR，Q3+1.5*IQR计算。我已经尝试将range设置为1.5，但它仍然可以检测到较少的异常值。范围是否是要设置的正确的方框选项，还是需要设置的另一个选项？任何帮助都是非常感谢的。 x <- c(-8.4849, -8.4848, -8.8485, -8.4848, -8.4848, -8.4848, -8.7879, -8.4848, -8.4849, -8.606

浏览 3提问于2016-08-03得票数 0

回答已采纳

1回答

如何在连接到Greenplum数据库时使用R获取特定分位数？

r、dplyr、greenplum

我正在尝试从我的数据中获取分位数-假设变量为(0.25，0.5和0.75 )。我可以从一个数据帧中找出怎么做。分位数<- mydataframe %>%汇总(分位数(variable_name，c(.25，0.5，0.75) 然而，当我尝试从表中获取分位数时(在连接到greenplum之后)，而不是数据帧，它似乎不起作用。关于如何实现这一点有什么想法吗？我的猜测是分位数函数到PostgreSQL查询的转换不可用。

浏览 8提问于2015-09-05得票数 0

1回答

apache箭头-并行处理的充分性

pandas、apache-spark、apache-arrow

我有一个庞大的数据集，并且正在使用Apache进行数据处理。使用Apache，我们可以将与火花兼容的数据帧转换为与Pandas兼容的数据帧，并在其上运行操作。通过转换数据帧，它是实现了在星火中看到的并行处理的性能，还是它的行为像潘达斯一样？

浏览 5提问于2020-07-03得票数 4

回答已采纳

1回答

如何在pandas中获取更多数据摘要

pandas

但是使用df.descripton()，我可以得到数据帧或序列的25%、50%、75%和100%值的数据的描述但是，如果我需要获取每5%的数据的摘要，有什么直接的方法来解决它吗？

浏览 1提问于2013-10-18得票数 0

1回答

在Python上加载excel文件时产生的不准确图形/浮点数

python、precision、xlsx

我试图在python上加载一个xlsx文件，但是我发现一些值是不准确的。我知道使用Decimal更准确，但我发现从数据集给出的原始值是不准确的。This is the row from the xlsx file with the problem value highlighted。And this is the output when I pull that value from the dataframe。这就是我加载数据的方式 import pandas as pd data = pd.read_excel(r'A:\Deakin\Crypto\Export Trade His

浏览 60提问于2021-07-02得票数 0

2回答

大数据集R和Excel之间缺乏可重现性

r、excel、floating-accuracy、approximation

我在RStudio和Excel2011MacOSX中运行RVersion3.0.2。我在4组45,015个值之间执行分位数规范化。是的，我确实知道生物导体的包装，但我的问题更笼统。它可能是任何其他的计算。问题是，当我在Excel中执行(1)“手工”计算，(2)用我从零开始在R中编写的程序时，我得到了非常相似的结果，但结果并不相同。通常情况下，(1)和(2)得到的数值相差不到1.0%，尽管有时会更大。这种变化可能来自哪里?在R和/或Excel中，关于数字近似，我应该知道些什么？这是因为这两个程序中的任何一个都缺乏浮动精度吗？我怎么才能避免这种情况？编辑我在评论中的建议，这可能是具体的情况。为

浏览 1提问于2014-03-19得票数 3

回答已采纳

2回答

如何使用两个不同的数据集作为svm的培训模型？

machine-learning、r、data-mining、svm

我知道，您应该使用培训数据中的参数(平均值和stdev)来扩展测试数据。这是相对简单的；但是，如果一个训练数据集(例如，集合A=5个样本)中的样本数量有限，所以我想将两个数据集(即集合A+集合B=10个样本)组合起来，以便有足够的样本进行培训，我能做些什么，以便将这两个集合缩放/规范化为一个，然后在测试集中使用这些参数？如果我单独缩放它们，我将有2个平均值和2个stdev。上下文是，我尝试将来自两个不同的微阵列平台的两个微阵列表达式组合起来，因此它们的表达范围是不同的。谢谢你提前提供帮助

浏览 0提问于2018-10-31得票数 4

1回答

从另一个数据帧的百分位数创建数据帧

python、pandas、dataframe

我想用另一个数据帧的25%、50%和75%制作一个数据帧。此数据帧在几年内每小时捕获一个值。我想创建一个以我的小时为索引的数据帧。并且列被标记为：'25%'，'50%'，'75%‘。从我拥有的数据帧中，我已经可以获得小时数了。我该怎么做呢？需要明确的是，每小时有多次测量(因为它是在另一年或另一天、一周甚至一个月)。我想把其中的25，50和75个百分位数做成一个数据帧。所有的帮助都被删除了！

浏览 6提问于2021-03-05得票数 1

回答已采纳

1回答

从另一个表中查找每行的值

我具有数据帧df，该数据帧df具有指示该数据帧中的每个参与者的等级级别的列。等级等级从"K“到"9”不等。我有另一个名为“分位数”的表，其中包含每个年级的测试分数的每个分位数的分位数的分位值。如何在df数据中创建一个新列，该列根据参考表“分位数”表示每个学生的考试成绩的分位数？规则是，如果测试分数的值小于分界值，则该测试分数属于分位数的分位数。并且，如果测试分数在2个分界值之间，则该测试分数被归类为较大分位数。非常感谢！下面是我要查找的虚拟数据和结果表： df <- data.frame("Name" = c("John", "

浏览 16提问于2021-08-10得票数 1

回答已采纳

2回答

numpy的百分位函数到底是做什么的？

python、numpy

根据我的理解，计算数据的q百分位数。但是它到底是怎么做的呢？比如说，给定x = np.array([1.3, 1.7, 2.4, 2.8, 3.5, 5.6, 6.6, 7.7, 8.8, 9.9]) (10个浮动在里面)。如果我做了np.percentile(x, 100)，它会把9.9000000000000004还给我。如果我做了np.percentile(x, 90)，它应该会返回8.8，对吗？但它还给了8.9100000000000001。为什么会有这样的差别呢？这些差别可以接受吗？

浏览 0提问于2015-10-26得票数 6

回答已采纳

1回答

Pandas展开数据帧，在应用时返回多个值

python、pandas、numpy

有没有一种方法可以在扩展的数据帧上对多个百分位值应用百分位函数。 import numpy as np import pandas as pd a = np.random.rand(1000) df = pd.DataFrame(a,columns=['Data']) val = [25,30] df['25th_Perc'] = df.expanding(min_periods=1).apply(lambda x: np.nanpercentile(x, val, interpolation='nearest'), raw=True)

浏览 15提问于2021-05-15得票数 0

回答已采纳

1回答

熊猫:按分位数分组并计算统计数据

python、pandas、grouping、quantile

我有99个人的年收入数据： import pandas, random incomes = pandas.DataFrame({'income':[round(random.triangular(20,80,200),0) for i in range(99)]}) 如何：将他们分成3个分位数，“贫穷”、“中等”、“富有”，每个分位数为的平均收入。抱歉，听起来像个新手的问题。我在学习。谢谢!

浏览 2提问于2020-06-09得票数 1

1回答

在Pandas dataframe中，如何计算每个月内每个十进制的中值

python、pandas、group-by

我有一个每月50个数据点的数据。我想在每个月内计算每一个十分位数的中值。在我的群呼中，我以日期为首，然后是qcut。但是qcut计算的是整个数据集的回收箱，而不是按月计算的。到目前为止，我的情况如下： import numpy as np import pandas as pd datecol = pd.date_range('12/31/2018','12/31/2019', freq='M') for ii in range(0,49): datecol = datecol.append(pd.date_range('

浏览 2提问于2019-12-12得票数 1

回答已采纳

1回答

如何处理pandas中的聚合数据？

python、pandas

我有一个数据集，如下所示： val 1 1 3 4 6 6 9 ... 我无法将其加载到熊猫数据帧中，因为它太大了。因此，我使用Spark聚合数据以形成： val occurrences 1 2 3 1 4 1 6 2 9 1 ... 并将其加载到熊猫数据帧中。"val“列不超过100，所以它不会占用太多内存。我的问题是，我不能很容易地在这样的结构上操作，例如使用pandas找到均值或中位数，也不能使用seaborn绘制箱线图。我只能使用我自己编

浏览 0提问于2018-09-18得票数 1

1回答

为什么pd.qcut()会产生巨大的边界？

python、pandas、dataframe、valueerror

我有一个事件数据的数据帧，其中的一列是该事件发生的时间间隔。我想使用pd.qcut()使每个间隔的百分位数给定其中的事件，并为每个事件分配其各自的百分位数。 def event_quartiler(event_row): in_interval = paired_events.loc[events['TimeInterval'] == event_row['TimeInterval']] quartiles = pd.qcut(in_interval['DateTime'], 100) counter = 1 fo

浏览 30提问于2019-03-26得票数 0

1回答

有pandas方法可以找到数据集的第四个5分位数吗？

python、pandas、dataframe、statistics、data-science

我最近正在尝试解决一个数据科学测试。测试的一部分是为了获得数据集中变量X小于该变量X的第四个5分位数的观察值的数量。我真的不明白第四个5分位数是什么意思！我尝试使用pandas df.quantile函数，但我不知道如何在我的情况下使用它

浏览 8提问于2021-02-26得票数 0

1回答

是否可以将图像与其在视频中的外观进行匹配？

image-processing、computer-vision、video-processing

我有一个10分钟的短片。这个视频实际上是一个在线讲座。当您观看它时，您将只看到幻灯片放映(某些幻灯片带有注释)。我有原始幻灯片(pdf或图像或ppt或任何东西)。是否有可能将每张幻灯片与视频中出现的特定时间相匹配？我的想法是获取每一张图像，并将其与该视频的每一帧视频进行比较，然后尝试匹配视频中的幻灯片图像。你觉得我的主意怎么样？有没有可能和可行的算法?我可以只用图像减去视频帧(计算差异)，看看哪个差异接近于零吗？谢谢

浏览 1提问于2013-05-17得票数 0

回答已采纳

1回答

合并排名

ranking

我有一张桌子来决定什么是最高级的子群。我的想法是将每个特征(分数、质量)分别排序，然后把排名相加，得到最终的分数(见下图)。我不确定这是个好主意。其他的想法，我可以认为是有一个分数，是平均的归一化分数和质量(当然，他们应该标准化，例如，最小-最大值，以具有相同的规模)。还有其他常用的方法吗？ 📷

浏览 0提问于2021-06-04得票数 0

1回答

在Dask中使用尚未实现的Pandas函数

python、pandas、dask、dask-distributed、dask-delayed

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回Dask，以便以后进行更多内存密集型操作。效率不是最高的。有没有更好的策略呢？

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

Pandas median的奇怪行为

python、pandas、dataframe

考虑以下数据帧： b c d e f g h 0 6.25 2018-04-01 True NaN 7 54.0 64.0 1 32.50 2018-04-01 True NaN 7 54.0 64.0 2 16.75 2018-04-01 True NaN 7 54.0 64.0 3 29.25 2018-04-01 True NaN 7 54.0 64.0 4 21.75 2018-04-01 True NaN 7 54.0 64.0 5

浏览 13提问于2019-02-19得票数 17

1回答

熊猫描述0.18.0与熊猫描述0.17.0

python、pandas

在一个环境中，我的pandas版本为0.17.0，numpy版本为1.10.1。在另一个环境中，我的pandas版本为0.18.1，numpy版本为1.10.4。我运行这段代码 from pandas import Series import numpy as np Series([1,2,3,4,5,np.NaN]).describe() 对于pandas版本0.17.0，我得到以下输出： count 5.000000 mean 3.000000 std 1.581139 min 1.000000 25% 2.000000 50% 3

浏览 0提问于2016-05-10得票数 5

2回答

Python如何用描述函数计算25百分位数

python、pandas、percentile

对于数据帧中的给定数据集，当我应用describe函数时，得到了基本的统计数据，包括最小、最大、25%、50%等。例如： data_1 = pd.DataFrame({'One':[4,6,8,10]},columns=['One']) data_1.describe() 产出如下： One count 4.000000 mean 7.000000 std 2.581989 min 4.000000 25% 5.500000 50% 7.000000 75% 8.500000 max 1

浏览 5提问于2016-09-19得票数 12

回答已采纳