前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python之数据聚合与分组运算

Python之数据聚合与分组运算

作者头像
王小雷
发布2018-01-02 14:23:16
1.2K0
发布2018-01-02 14:23:16
举报
文章被收录于专栏:王小雷王小雷

Python之数据聚合与分组运算

1. 关系型数据库方便对数据进行连接、过滤、转换和聚合。
2. Hadley Wickham创建了用于表示分组运算术语“split-apply-combine”(拆分-应用-合并)。
3. GroupBy的size方法,它可以返回一个含有分组大小的Series。
4. gorupby对分组进行迭代,可以产生一组二元元组(由分组名和数据块组成)。
5. 选取一个或以组列
代码语言:javascript
复制
对于由GroupBy对象,如果用一个(单个字符串)或一组(字符串数组)列名对其进行索引,就能实现选取部分列进行聚合的目的。
6. 通过字典或Series进行分组。
7. 根据索引级别分组:层次化索引数据集最方便的地方就在于它能够根据索引级别进行聚合。要实现该目的,通过level关键字传入级别编码或者名称即可。
8. 数据聚合,对于聚合是指能够从数组产生标量值的数据转换过程。
9. 聚合只不过是分组运算的其中一种,它是数据转换的特例。
10 apply:一般性的“拆分-应用-合并”
代码语言:javascript
复制
最一般化的GroupBy方法是apply,它会将待处理的对象拆分成多个片段,然后对个片段调用传入的函数,最后尝试将各片段组合到一起。
11 分位数和桶分析
代码语言:javascript
复制
pandas有一些可以根据指定面元或样本分位数将数据拆分成多块的工具(比如cut和qcut)。将这些函数跟GroupBy结合起来,就能轻松地实现对数据集的桶(bucket)或分位数(quantile)分析。
12 透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。
13 交叉表(cross-tabulation,简称crosstab)是一种用于计算分组频率的特殊透视表。
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Python之数据聚合与分组运算
    • 1. 关系型数据库方便对数据进行连接、过滤、转换和聚合。
      • 2. Hadley Wickham创建了用于表示分组运算术语“split-apply-combine”(拆分-应用-合并)。
        • 3. GroupBy的size方法,它可以返回一个含有分组大小的Series。
          • 4. gorupby对分组进行迭代,可以产生一组二元元组(由分组名和数据块组成)。
            • 5. 选取一个或以组列
              • 6. 通过字典或Series进行分组。
                • 7. 根据索引级别分组:层次化索引数据集最方便的地方就在于它能够根据索引级别进行聚合。要实现该目的,通过level关键字传入级别编码或者名称即可。
                  • 8. 数据聚合,对于聚合是指能够从数组产生标量值的数据转换过程。
                    • 9. 聚合只不过是分组运算的其中一种,它是数据转换的特例。
                      • 10 apply:一般性的“拆分-应用-合并”
                        • 11 分位数和桶分析
                          • 12 透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。
                            • 13 交叉表(cross-tabulation,简称crosstab)是一种用于计算分组频率的特殊透视表。
                            相关产品与服务
                            领券
                            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档