文章/答案/技术大牛

发布

社区首页 >问答首页 >熊猫:一组接一组地使用最小等级

问熊猫:一组接一组地使用最小等级
EN

Stack Overflow用户

提问于 2019-04-24 14:53:54

回答 1查看 220关注 0票数 1

我知道rank方法存在于pandas.DataFrame.groupby中，但我想知道是否可以使用最小rank方法来获得与R编程语言中针对以下问题的结果相同的结果。

复制到我的github的数据集是几MB。

我的尝试：

import numpy as np
import pandas as pd

flights = pd.read_csv('https://github.com/bhishanpdl/Datasets/blob/master/nycflights13.csv?raw=true')
print(flights.shape)


df = (flights[flights.tailnum.notna()]
      .assign( on_time = lambda x: x.arr_time.notna() & (x.arr_delay <=0))
      .groupby('tailnum')['on_time']
      .agg([np.mean,'count',pd.Series.rank(method='min')]) # R uses min_rank
      .set_axis(['on_time','n','rank'],axis=1,inplace=False)
      .query( 'rank == 1.0')
     )

df.head()

它带来了一个错误。

所需输出

shape= 336776, 19

HEAD
tailnum on_time n
N121DE  0   2
N136DL  0   1
N143DA  0   1
N17627  0   2
N240AT  0   5
N26906  0   1

TAIL
tailnum on_time n
N939DN  0   1
N943DN  0   1
N953FR  0   3
N960DN  0   3
N965DN  0   2
N978SW  0   1

R代码工作得很好，但我想使用Pandas

library(tidyverse)
library(nycflights13)
library(dplyr)

df = flights %>%
  filter(!is.na(tailnum)) %>%
  mutate(on_time = !is.na(arr_time) & (arr_delay <= 0)) %>%
  group_by(tailnum) %>%
  summarise(on_time = mean(on_time), n = n()) %>%
  filter(min_rank(on_time) == 1)


dim(flights)
head(df)
tail(df)

我们很感激你的帮助。

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-04-24 17:32:46

在R的dplyr中，min_rank不是聚合函数，而是聚合后的计算(实际上是受ANSISQL2003Window函数的启发，RANK () OVER ()也不是聚合函数)。因此，在agg()之外的聚合之后，在Pandas数据帧中添加这样的计算列。然后调用reindex或drop以排除助手列：

df = (flights[flights.tailnum.notna()]
      .assign( on_time = lambda x: x.arr_time.notna() & (x.arr_delay <=0))
      .groupby('tailnum')['on_time']
      .agg([np.mean, 'count'])
      .set_axis(['on_time','n'],axis=1, inplace=False)
      .assign(rank = lambda x: pd.Series.rank(x['on_time'], method='min'))
      .query("rank == 1") 
      .reindex(columns=['on_time', 'n']) # OR .drop(columns=['rank'])
     )

print(flights.shape)
# (336776, 19)

print(df.head())
#          on_time  n
# tailnum
# N121DE       0.0  2
# N136DL       0.0  1
# N143DA       0.0  1
# N17627       0.0  2
# N240AT       0.0  5

print(df.tail())
#          on_time  n
# tailnum
# N943DN       0.0  1
# N953FR       0.0  3
# N960DN       0.0  3
# N965DN       0.0  2
# N978SW       0.0  1

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55832995

复制

相似问题

问熊猫:一组接一组地使用最小等级
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫:一组接一组地使用最小等级EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫:一组接一组地使用最小等级
EN