pandas 使用指南

备案控制台

登录注册

在线学习中心课程pandas 使用指南

10分钟

GroupBy对象1

1. GroupBy对象是一个迭代器对象。迭代结果产生一组二元元组（由分组名和数据块组成）。

如果有多重键，则元组的第一个元素将是由键组成的元组。
dict(list(GroupBy_obj))将生产一个字典，方便引用

GroupBy.groups属性返回一个字典： {group name->group labels}
GroupBy.indices属性返回一个字典：{group name->group indices}

3. GroupBy的统计函数有（排除了NaN）：

GroupBy.count() ：计算各分组的非NaN的数量
GroupBy.cumcount([ascending])：计算累积分组数量
GroupBy.first()：计算每个分组的第一个非NaN值
GroupBy.head([n]) ：返回每个分组的前 n个值
GroupBy.last() ：计算每个分组的最后一个非NaN值
GroupBy.max()：计算每个分组的最大值
GroupBy.mean(*args, **kwargs)：计算每个分组的均值
GroupBy.median()：计算每个分组的中位数
GroupBy.min()：计算每个分组的最小值
GroupBy.nth(n[, dropna])：计算每个分组第n行数据。如果n是个整数列表，则也返回一个列表。
GroupBy.ohlc()：计算每个分组的开始、最高、最低、结束值
GroupBy.prod()：计算每个分组的乘
GroupBy.size()：计算每个分组的大小（包含了NaN）
GroupBy.sem([ddof]) ：计算每个分组的sem（与均值的绝对误差之和）
GroupBy.std([ddof]) ：计算每个分组的标准差
GroupBy.sum()：计算每个分组的和
GroupBy.var([ddof])：计算每个分组的方差
GroupBy.tail([n]) ：返回每个分组的尾部 n个值

另外SeriesGroupBy/DataFrameGroupBy也支持Series/DataFrame的统计类方法以及其他方法：

  #SeriesGroupBy - DataFrameGroupBy 都有的方法：
  .agg(arg, *args, **kwargs)
  .all([axis, bool_only, ...]) 
  .any([axis, bool_only, ...])
  .bfill([limit])
  .corr([method, min_periods])
  .count() 
  .cov([min_periods]) 
  .cummax([axis, skipna]) 
  .cummin([axis, skipna]) 
  .cumprod([axis]) 
  .cumsum([axis]) 
  .describe([percentiles, ...]) 
  .diff([periods, axis])   
  .ffill([limit]) 
  .fillna([value, method, ...]) 
  .hist(data[, column, by, ...]) 
  .idxmax([axis, skipna]) 
  .idxmin([axis, skipna]) 
  .mad([axis, skipna, level])
  .pct_change([periods, ...]) 
  .plot 
  .quantile([q, axis, ...]) 
  .rank([axis, method, ...]) 
  .resample(rule, *args, **kwargs) 
  .shift([periods, freq, axis])
  .size() 
  .skew([axis, skipna, level, ...]) 
  .take(indices[, axis, ...])
  .tshift([periods, freq, axis]) 
  #SeriesGroupBy独有的方法
  SeriesGroupBy.nlargest(*args, **kwargs) 
  SeriesGroupBy.nsmallest(*args, **kwargs) 
  SeriesGroupBy.nunique([dropna]) 
  SeriesGroupBy.unique()
  SeriesGroupBy.value_counts([normalize, ...])   
  #DataFrameGroupBy独有的方法
  DataFrameGroupBy.corrwith(other[, axis, drop]) 
  DataFrameGroupBy.boxplot(grouped[, ...])

上一节: 分组2 下一节: GroupBy对象2

直播支持申请

目录

评价

推荐

1. 基本数据结构

基本数据结构

Series

Index1

Index2

MultiIndex

DataFrame1

DataFrame2

2. 内部数据结构

Index

MultiIndex

Seris

DataFrame

3. 下标存取

[ ] 操作符1

[ ] 操作符2

loc/iloc/ix 存取器1

loc/iloc/ix 存取器2

at/iat 存取器1

at/iat 存取器2

query 方法

多级索引

整数 label

4. 运算

数值运算

排序1

排序2

统计1

统计2

5. 变换

索引和轴的变换1

索引和轴的变换2

合并数据1

合并数据2

索引旋转

6. 数据清洗

移除重复数据

apply1

apply2

缺失数据1

缺失数据2

离散化

7. 字符串操作

字符串操作

8. 聚合与分组

分组1

分组2

GroupBy对象1

GroupBy对象2

分组级运算

透视表和交叉表1

透视表和交叉表2

9. 时间序列

时间序列

Python 中的时间

时区

time 模块

datetime 模块1

datetime 模块2

时间点 Timestamp

DateOffset

Timedelta

时间段 Period

pands

.to_period(freq)

.asfreq()

DatetimeIndex

pandas.date_range()

Series

DatetimeIndex的方法

PeriodIndex

pandas.period_range()

PeriodIndex的方法

shift()

resampling

resample