对数据集进行分类,并在每组数据上进行聚合操作,是非常常见的数据处理,类似excel里的分组统计或数据透视表功能。pandas提供了比较灵活的groupby分组接口,同时我们也可以使用pivot_table进行透视处理。
分组函数groupby,对某列数据进行分组,返回一个Groupby对象。
分组 在进行groupby分组后,我们可以对分组对象进行各种操作,比如求分组平均值mean()
分组统计 很多时候,我们需要返回dataframe型数据进行二次操作
获取datafram数据 size()方法可以获取各分组的大小
获取分组大小
遍历分组
遍历分组 [[]]和[]在返回结果上的区别
自由选择返回结果类型 有时候,我们可以通过传递函数进行分组,简化代码
使用函数进行分组
常见的聚合函数如下:
计算组的平均值
演示数据 简单的分组聚合操作
分组聚合 同时使用多种聚合方法
同时使用多种聚合方法 对聚合结果列进行命令
对聚合结果列命名 对不同的列进行不同的聚合方法
不同的聚合方法
数据透视采用pivot_table方法,和excel数据透视表功能类似,其实可以和groupby分组统计进行相互转化
它带有许多参数: data:一个DataFrame对象。 values:要汇总的一列或一列列表。 index:与数据或它们的列表具有相同长度的列,Grouper,数组。在数据透视表索引上进行分组的键。如果传递了数组,则其使用方式与列值相同。 columns:与数据或它们的列表具有相同长度的列,Grouper,数组。在数据透视表列上进行分组的键。如果传递了数组,则其使用方式与列值相同。 aggfunc:用于汇总的函数,默认为numpy.mean。
演示数据 数据透视操作
简单的数据透视对不同列使用不同的方法
对不同列使用不同方法 margins增加合计项
合计项
嗨,你还在看吗?