我有这个数据
date,AA
1980-01-01, 77.7
1980-01-02, 86
1980-01-03, 92.3
1980-01-04, 96.4
1980-01-05, 85.7
1980-01-06, 75.7
1980-01-07, 86.8
1980-01-08, 93.2
1985-08-13, 224.6
1985-08-14, 213.9
1985-08-15, 205.7
1985-08-16, 207.3
1985-08-17, 202.1
我想计算每年的最大值和发生的日期。我之所以挣扎,是因为我想把日期作为指数。
实际上,我将其解读为:
dfr = pd.read_csv(fnamed, sep=',', header = 0, index_col=0, parse_dates=True)
我知道我可以重拍
dfr_D = dfr.resample('Y').max()
但是在这种情况下,我将失去关于一年内最大值位置的信息。
我发现了这个:
idx = dfr.groupby(lambda x: dfr['date'][x].year)["A"].idxmax()
然而,dfr' date‘似乎是列的名称,而在我的例子中,日期在索引中,并且'.year’不是它的属性之一。
我有一种感觉,我应该和"groupby“和"indexmax”合作。然而,我所有的出席,他们都失败了。
提前感谢
发布于 2021-11-24 15:44:17
假设"date“是datetime类型和一列,您可以使用以下方法对数据进行切片,使每个组的数据达到最大值:
df.loc[df.groupby(df['date'].dt.year)['AA'].idxmax().values]
产出:
date AA
3 1980-01-04 96.4
8 1985-08-13 224.6
如果“日期”是索引:
df.loc[df.groupby(df.index.year)['AA'].idxmax().values]
产出:
AA
date
1980-01-04 96.4
1985-08-13 224.6
https://stackoverflow.com/questions/70098850
复制相似问题