基于分位数的采样数据帧(pandas)_基于分位数的数据帧子集_基于条件移除/重采样pandas数据帧行 - 腾讯云开发者社区

python、pandas

我有一个数据帧，我想基于参数num_samples对其进行采样。我想基于年龄跨分位数进行均匀采样。例如，如果我的数据帧有1000行和num_samples = .5，我将需要采样500行，但从每个分位数采样125行。我的数据帧的前几条记录如下所示： Age

浏览 22提问于2021-04-23得票数 1

回答已采纳

1回答

Pandas使用for循环创建额外的数据帧

python、pandas、data-science

出于这个目的，这是一些虚构的时间序列数据：import numpy as np df = pd.DataFrame({'Random_Number':randint(1, 100, 1000)}, index=rng) 问，我如何创建一个函数，可以在pandas数据帧中返回每天

浏览 21提问于2020-02-15得票数 0

回答已采纳

2回答

使用if循环使用来自三个不同数据帧的数据创建矩阵

r、loops、if-statement、quantile

我有三个数据帧。一个使用原始数据集的均值，两个表示第2.75个百分位数和97.5个百分位数的null分布，我使用对原始样本进行采样的循环创建的。我创建了一个if循环，我想为每个循环复制一个矩阵，该矩阵看起来与我的数据帧格式相同，但只包含"-“、"+”或"0“。这些符号取决于第一个数据</em

浏览 32提问于2020-05-12得票数 0

3回答

为重新采样的分位数值创建单独的pandas* df*

python、pandas

如果我有一些数据： import pandas as pd from numpy.random import randint import pandasD') print (r.apply(lambda x: x.quantile(0.05))) 有没有一种简单的方法可以创建一个单独的pa

浏览 38提问于2020-04-22得票数 1

回答已采纳

1回答

将表格数据排序到Quintile/Deciles中

python

我正在努力将我的数据表排序为五分表/十分表等。我只是在使用一些状态数据进行练习，因为我是新手和学习者。到目前为止，这是我的代码。但是我试着用这段代码来查找五分图。 tablepolice_shootings_per_million.quantile(0.2) 我得到了这个错误。提前谢谢，我一定会记下正确答案的。

浏览 12提问于2020-06-16得票数 0

1回答

根据每组值的分位数过滤数据帧

pandas、group-by、quantile

假设我有一个这样的数据帧： import pandas as pd df = pd.DataFrame({'col1':['A','A', 'A', 'B','B'], 'col2':[2, 4, 6, 3, 4]}) 我希望只保留那些在col2处的值小于col1的每组值的第x个分位数的<

浏览 30提问于2020-01-31得票数 1

回答已采纳

2回答

优化PySpark与pandas* DataFrames之间的转换*

pandas、pyspark、apache-spark-sql、azure-databricks、pyarrow

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("

浏览 11提问于2021-11-19得票数 0

1回答

多个自变量的分位数回归？

python、statsmodels、quantile-regression

是否可以使用多个自变量(x)运行分位数REgression。使用Python时，我尝试了statsmodel mod = smf.quantreg(y, X)print(res.summary()) 其中y和X是Pandas数据帧。这对OLS有效，但是对于分位数回归我不起作用。您将如何执行此操作？

浏览 62提问于2020-08-22得票数 2

2回答

基于列和的分位数的子集数据(列)

r、dataframe、subset

有没有一种聪明的方法可以根据列和的分位数从数据帧中选择列？例如，仅从数据帧中选择列总和位于第一个分位数的列。我可以基于列和对数据进行子集，也可以计算列和的分位数，但是有没有好的方法来组合这些分位数呢？

浏览 1提问于2013-01-23得票数 0

回答已采纳

2回答

求整个pandas数据帧的中值

python、pandas

我在试着找出整个数据流的中位数。此操作的第一部分是仅选择数据帧中的某些项。这有两个问题，它包含了数据帧中不处于“状态”的部分。而且，中位数不是单个值，它是基于row的。如何获得数据帧中所有数据的总体中值？

浏览 1提问于2017-04-28得票数 10

1回答

使用分位数回归和Python识别异常值

python、pandas、matplotlib、statsmodels、quantile-regression

我试图使用回归线的第5和第95个百分位数来识别数据集中的异常值，因此我在Python中对statsmodel、matplotlib和pandas使用分位数回归。基于来自blokeley的，我可以创建我的数据的散点图，并基于分位数回归显示最佳拟合线以及第5和第95百分位数<em

浏览 5提问于2018-08-11得票数 3

2回答

过滤掉python pandas中两个百分位数之间的数据

python、pandas、numpy

我有pandas数据帧，我想要消除列的极值。例如:我有一个叫做df的pandas数据框，还有一个叫做percentage的列。我想根据以下条件过滤出数据框，根据percentage列中的值消除前10个百分位数和最后10个百分位数。我想把它过滤到10%到90%。df.percentage > np.percentile(df.percent

浏览 30提问于2019-04-28得票数 1

回答已采纳

1回答

将15分钟的数据重采样为30分钟

python、date、time、aggregation、resampling

我正在使用pandas中的重采样功能，将两个15分钟间隔数据汇总为一个数据帧的30分钟间隔数据。它是有效的，但我得到的答案只是30分钟记录的结果，而不是第15分钟和30分钟记录的结果的相加。有什么需要帮忙的吗？下面是我用于重采样的<

浏览 19提问于2021-10-14得票数 0

1回答

如何根据日期标题对二维数组列进行平均

python、pandas、numpy

我正在寻找一种方法来平均列中的所有温度取决于日期采样率。例如，较早的日期时间间隔为10分钟，而较晚的日期时间间隔为6小时。如果能够将采样作为输入，并基于该采样率提取数据，这将是一件好事，这样我就可以看到哪一个效果最好。如果我选择比方说3小时采样，如果间隔超过3小时，这将被忽略，并且在这种情况下不会对数据进行任何更改(即，10分钟的日期时间间隔是平均的</e

浏览 13提问于2019-10-14得票数 0

1回答

从0到100的Dataframe百分比计算

python、pandas、dataframe、percentile

我需要计算数据帧中值的百分位数。按照其他人的建议计算百分位数的最接近方法是使用pandas.DataFrame.rank(pct=True) ()。但是，该方法不会从第0个百分位数开始：num.rank(pct=True)0 0.252 0.753 1.00 有没有更好的

浏览 5提问于2018-04-06得票数 0

2回答

如果我有这个数据框： df <- data.frame(time = seq(as.Date('2000-01-01'), length.out = 200, by = 'days'),a = rnorm(200,8.4, 22), b=rnorm(200,8.4, 22), d= rnorm(200,8.4, 22), e=rnorm(200,8.4, 22)) 设置此df的子集的最简单方法是什么，以便每列的值应该高于10%百分位数，但低

浏览 20提问于2019-05-31得票数 1

回答已采纳

1回答

带有非唯一值的groupby的Pandas* qcut*

python、pandas

我正在尝试对pandas数据帧执行groupby，并在该groupby上执行qcut，以对分位数上的值进行分类。有没有一种方法可以直接忽略groupby和qcut上的这些情况？我正在做类似这样的事情 lambda x:.sum()['value

浏览 5提问于2015-10-21得票数 2

1回答

Pandas:对列类别中的每一行进行排序/百分位数

python、sorting、pandas、dataframe、percentile

我想知道是否有一个雄辩的方法来对Pandas数据帧中的列进行排序(计算百分位数)，条件如下：TargetRanking = StartingData.rank(axis="columns", pct=True)

浏览 56提问于2017-03-10得票数 1

回答已采纳

1回答

使用多个变量对熊猫数据帧进行重采样

python、pandas、dataframe

我有一个长格式的数据帧，其中包含几个变量的15分钟间隔的数据。如果我应用重采样方法来获得日均值，我会得到给定时间间隔内所有变量的平均值(而不是速度、距离的平均值)。有谁知道如何对数据帧进行重采样并保留两个变量？注意:下面的代码包含一个长格式的示例数据帧，我的真实示例从csv加载数据<

浏览 19提问于2021-11-08得票数 1

3回答

连续变量按四分位数分类？

python、statistics、pandas

让我们继续，我有一个连续变量的字段，就像排队等候的人的数。我想利用这些值，并创建一个基于四分位数的分类值。假设我的数值范围是1到80，四分位数告诉我，“很短”线小于5个人，“短”线在6到30之间，“长”线是31到50，“很长”线是>=51。我可以想出不同的方法来用python/大熊猫/numpy来写这篇文章，但是有件事告诉我，你们中的一个可以想出一个简短而优雅的</

浏览 0提问于2018-03-14得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云