腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
基于
分
位数
的
采样
数据
帧
(
pandas
)
python
、
pandas
我有一个
数据
帧
,我想
基于
参数num_samples对其进行
采样
。我想
基于
年龄跨
分
位数
进行均匀
采样
。例如,如果我
的
数据
帧
有1000行和num_samples = .5,我将需要
采样
500行,但从每个
分
位数
采样
125行。我
的
数据
帧
的
前几条记录如下所示: Age
浏览 22
提问于2021-04-23
得票数 1
回答已采纳
1
回答
Pandas
使用for循环创建额外
的
数据
帧
python
、
pandas
、
data-science
出于这个目的,这是一些虚构
的
时间序列
数据
:import numpy as np df = pd.DataFrame({'Random_Number':randint(1, 100, 1000)}, index=rng) 问,我如何创建一个函数,可以在
pandas
数据
帧
中返回每天
浏览 21
提问于2020-02-15
得票数 0
回答已采纳
2
回答
使用if循环使用来自三个不同
数据
帧
的
数据
创建矩阵
r
、
loops
、
if-statement
、
quantile
我有三个
数据
帧
。一个使用原始
数据
集
的
均值,两个表示第2.75个百
分
位数
和97.5个百
分
位数
的
null分布,我使用对原始样本进行
采样
的
循环创建
的
。我创建了一个if循环,我想为每个循环复制一个矩阵,该矩阵看起来与我
的
数据
帧
格式相同,但只包含"-“、"+”或"0“。这些符号取决于第一个
数据</em
浏览 32
提问于2020-05-12
得票数 0
3
回答
为重新
采样
的
分
位数
值创建单独
的
pandas
df
python
、
pandas
如果我有一些
数据
: import
pandas
as pd from numpy.random import randint import
pandas
D') print (r.apply(lambda x: x.quantile(0.05))) 有没有一种简单
的
方法可以创建一个单独
的
pa
浏览 38
提问于2020-04-22
得票数 1
回答已采纳
1
回答
将表格
数据
排序到Quintile/Deciles中
python
我正在努力将我
的
数据
表排序为五
分
表/十
分
表等。我只是在使用一些状态
数据
进行练习,因为我是新手和学习者。到目前为止,这是我
的
代码。但是我试着用这段代码来查找五
分
图。 tablepolice_shootings_per_million.quantile(0.2) 我得到了这个错误。提前谢谢,我一定会记下正确答案
的
。
浏览 12
提问于2020-06-16
得票数 0
1
回答
根据每组值
的
分
位数
过滤
数据
帧
pandas
、
group-by
、
quantile
假设我有一个这样
的
数据
帧
: import
pandas
as pd df = pd.DataFrame({'col1':['A','A', 'A', 'B','B'], 'col2':[2, 4, 6, 3, 4]}) 我希望只保留那些在col2处
的
值小于col1
的
每组值
的
第x个
分
位数
的<
浏览 30
提问于2020-01-31
得票数 1
回答已采纳
2
回答
优化PySpark与
pandas
DataFrames之间
的
转换
pandas
、
pyspark
、
apache-spark-sql
、
azure-databricks
、
pyarrow
我有一个13M行
的
pyspark
数据
帧
,我想把它转换成
pandas
数据
帧
。然后,将根据其他参数以不同
的
频率(例如1秒、1
分
钟、10
分
钟)对
数据
帧
进行重新
采样
以进行进一步分析。从文献[,]中,我发现使用以下任何一行都可以加快pyspark到
pandas
数据
帧
之间
的
转换: spark.conf.set("
浏览 11
提问于2021-11-19
得票数 0
1
回答
多个自变量
的
分
位数
回归?
python
、
statsmodels
、
quantile-regression
是否可以使用多个自变量(x)运行
分
位数
REgression。使用Python时,我尝试了statsmodel mod = smf.quantreg(y, X)print(res.summary()) 其中y和X是
Pandas
数据
帧
。这对OLS有效,但是对于
分
位数
回归我不起作用。 您将如何执行此操作?
浏览 62
提问于2020-08-22
得票数 2
2
回答
基于
列和
的
分
位数
的
子集
数据
(列)
r
、
dataframe
、
subset
有没有一种聪明
的
方法可以根据列和
的
分
位数
从
数据
帧
中选择列?例如,仅从
数据
帧
中选择列总和位于第一个
分
位数
的
列。我可以
基于
列和对
数据
进行子集,也可以计算列和
的
分
位数
,但是有没有好
的
方法来组合这些
分
位数
呢?
浏览 1
提问于2013-01-23
得票数 0
回答已采纳
2
回答
求整个
pandas
数据
帧
的
中值
python
、
pandas
我在试着找出整个
数据
流
的
中
位数
。此操作
的
第一部
分
是仅选择
数据
帧
中
的
某些项。 这有两个问题,它包含了
数据
帧
中不处于“状态”
的
部分。而且,中
位数
不是单个值,它是
基于
row
的
。如何获得
数据
帧
中所有
数据
的
总体中值?
浏览 1
提问于2017-04-28
得票数 10
1
回答
使用
分
位数
回归和Python识别异常值
python
、
pandas
、
matplotlib
、
statsmodels
、
quantile-regression
我试图使用回归线
的
第5和第95个百
分
位数
来识别
数据
集中
的
异常值,因此我在Python中对statsmodel、matplotlib和
pandas
使用
分
位数
回归。
基于
来自blokeley
的
,我可以创建我
的
数据
的
散点图,并
基于
分
位数
回归显示最佳拟合线以及第5和第95百
分
位数
<em
浏览 5
提问于2018-08-11
得票数 3
2
回答
过滤掉python
pandas
中两个百
分
位数
之间
的
数据
python
、
pandas
、
numpy
我有
pandas
数据
帧
,我想要消除列
的
极值。例如:我有一个叫做df
的
pandas
数据
框,还有一个叫做percentage
的
列。我想根据以下条件过滤出
数据
框,根据percentage列中
的
值消除前10个百
分
位数
和最后10个百
分
位数
。 我想把它过滤到10%到90%。df.percentage > np.percentile(df.percent
浏览 30
提问于2019-04-28
得票数 1
回答已采纳
1
回答
将15
分
钟
的
数据
重
采样
为30
分
钟
python
、
date
、
time
、
aggregation
、
resampling
我正在使用
pandas
中
的
重
采样
功能,将两个15
分
钟间隔
数据
汇总为一个
数据
帧
的
30
分
钟间隔
数据
。它是有效
的
,但我得到
的
答案只是30
分
钟记录
的
结果,而不是第15
分
钟和30
分
钟记录
的
结果
的
相加。有什么需要帮忙
的
吗?下面是我用于重
采样
的<
浏览 19
提问于2021-10-14
得票数 0
1
回答
如何根据日期标题对二维数组列进行平均
python
、
pandas
、
numpy
我正在寻找一种方法来平均列中
的
所有温度取决于日期
采样
率。例如,较早
的
日期时间间隔为10
分
钟,而较晚
的
日期时间间隔为6小时。如果能够将
采样
作为输入,并
基于
该
采样
率提取
数据
,这将是一件好事,这样我就可以看到哪一个效果最好。如果我选择比方说3小时
采样
,如果间隔超过3小时,这将被忽略,并且在这种情况下不会对
数据
进行任何更改(即,10
分
钟
的
日期时间间隔是平均
的</e
浏览 13
提问于2019-10-14
得票数 0
1
回答
从0到100
的
Dataframe百
分
比计算
python
、
pandas
、
dataframe
、
percentile
我需要计算
数据
帧
中值
的
百
分
位数
。按照其他人
的
建议计算百
分
位数
的
最接近方法是使用
pandas
.DataFrame.rank(pct=True) ()。但是,该方法不会从第0个百
分
位数
开始:num.rank(pct=True)0 0.252 0.753 1.00 有没有更好
的
浏览 5
提问于2018-04-06
得票数 0
2
回答
基于
分
位数
的
数据
帧
子集
r
、
function
、
dplyr
、
subset
如果我有这个
数据
框: df <- data.frame(time = seq(as.Date('2000-01-01'), length.out = 200, by = 'days'),a = rnorm(200,8.4, 22), b=rnorm(200,8.4, 22), d= rnorm(200,8.4, 22), e=rnorm(200,8.4, 22)) 设置此df
的
子集
的
最简单方法是什么,以便每列
的
值应该高于10%百
分
位数
,但低
浏览 20
提问于2019-05-31
得票数 1
回答已采纳
1
回答
带有非唯一值
的
groupby
的
Pandas
qcut
python
、
pandas
我正在尝试对
pandas
数据
帧
执行groupby,并在该groupby上执行qcut,以对分
位数
上
的
值进行分类。有没有一种方法可以直接忽略groupby和qcut上
的
这些情况?我正在做类似这样
的
事情 lambda x:.sum()['value
浏览 5
提问于2015-10-21
得票数 2
1
回答
Pandas
:对列类别中
的
每一行进行排序/百
分
位数
python
、
sorting
、
pandas
、
dataframe
、
percentile
我想知道是否有一个雄辩
的
方法来对
Pandas
数据
帧
中
的
列进行排序(计算百
分
位数
),条件如下:TargetRanking = StartingData.rank(axis="columns", pct=True)
浏览 56
提问于2017-03-10
得票数 1
回答已采纳
1
回答
使用多个变量对熊猫
数据
帧
进行重
采样
python
、
pandas
、
dataframe
我有一个长格式
的
数据
帧
,其中包含几个变量
的
15
分
钟间隔
的
数据
。如果我应用重
采样
方法来获得日均值,我会得到给定时间间隔内所有变量
的
平均值(而不是速度、距离
的
平均值)。有谁知道如何对
数据
帧
进行重
采样
并保留两个变量? 注意:下面的代码包含一个长格式
的
示例
数据
帧
,我
的
真实示例从csv加载
数据<
浏览 19
提问于2021-11-08
得票数 1
3
回答
连续变量按四
分
位数
分类?
python
、
statistics
、
pandas
让我们继续,我有一个连续变量
的
字段,就像排队等候的人
的
数。我想利用这些值,并创建一个
基于
四
分
位数
的
分类值。假设我
的
数值范围是1到80,四
分
位数
告诉我,“很短”线小于5个人,“短”线在6到30之间,“长”线是31到50,“很长”线是>=51。我可以想出不同
的
方法来用python/大熊猫/numpy来写这篇文章,但是有件事告诉我,你们中
的
一个可以想出一个简短而优雅
的</
浏览 0
提问于2018-03-14
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python一行命令生成数据分析报告
基于代理的数据库分库分表框架 Mycat实践
数据分析神器Pandas:如何用1行Python代码挖掘数据?
Python数据可视化之pandas入门
Pandas库在Anaconda中的安装方法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券