Python之数据聚合与分组运算

Python之数据聚合与分组运算

1. 关系型数据库方便对数据进行连接、过滤、转换和聚合。

2. Hadley Wickham创建了用于表示分组运算术语“split-apply-combine”(拆分-应用-合并)。

3. GroupBy的size方法,它可以返回一个含有分组大小的Series。

4. gorupby对分组进行迭代,可以产生一组二元元组(由分组名和数据块组成)。

5. 选取一个或以组列

对于由GroupBy对象,如果用一个(单个字符串)或一组(字符串数组)列名对其进行索引,就能实现选取部分列进行聚合的目的。

6. 通过字典或Series进行分组。

7. 根据索引级别分组:层次化索引数据集最方便的地方就在于它能够根据索引级别进行聚合。要实现该目的,通过level关键字传入级别编码或者名称即可。

8. 数据聚合,对于聚合是指能够从数组产生标量值的数据转换过程。

9. 聚合只不过是分组运算的其中一种,它是数据转换的特例。

10 apply:一般性的“拆分-应用-合并”

最一般化的GroupBy方法是apply,它会将待处理的对象拆分成多个片段,然后对个片段调用传入的函数,最后尝试将各片段组合到一起。

11 分位数和桶分析

pandas有一些可以根据指定面元或样本分位数将数据拆分成多块的工具(比如cut和qcut)。将这些函数跟GroupBy结合起来,就能轻松地实现对数据集的桶(bucket)或分位数(quantile)分析。

12 透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。

13 交叉表(cross-tabulation,简称crosstab)是一种用于计算分组频率的特殊透视表。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏racaljk

[llvm] LLVM 核心类简明示例 : llvm::Value && llvm::Type && llvm::Constant

llvm核心类位于 include/llvm/IR中,用以表示机器无关且表现力极强的LLVM IR。

753
来自专栏Golang语言社区

Top K算法详细解析—百度面试

问题描述: 这是在网上找到的一道百度的面试题: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千...

3787
来自专栏分布式系统进阶

Librdkafka的基础数据结构 1 --- 队列

两个元素: tqh_first: 指向队列的第一个成员; tqh_last: 存的是队列里的最后一个元素的 next指针的变量地址, 这个二级指针太有用了,...

592
来自专栏于晓飞的专栏

Java I/O 总结

Java I/O的的架构使用了装饰器的模式,我们在使用流的时候需要新建很多的装饰器对象,对源数据进行层层包装。各个包装类名以及它们的应用场景比较多,初学的时候难...

823
来自专栏数据分析

[数据库基础]——索引详解

索引对于接触过数据库的人,都不会很陌生,但是说实话,也不一定很熟悉。先来介绍下索引的优点。 提高性能 现在有一个数据库表[Words],有[WordID],[W...

3326
来自专栏大数据平台TBDS

Hive 时间转换函数使用心得

Hive sql 与传统的 oracle 或者mysql 的时间转换函数有一些不同,对于想将传统数据库迁移到hdfs 用 hive sql 进行处理的任务,如何...

1.5K11
来自专栏用户画像

腾讯面试题之Java实现莱文斯坦(相似度)算法

使用Levenshtein(莱文斯坦)编辑距离来实现相似度算法 所谓Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,操作包...

542
来自专栏ml

位运算的方法,小结

文章来源未知----再次声明为转载... 本文是针对使用位运算来实现一些方法,我们都知道位运算的代价比其他符号运算都低,所以当一个方法只使用位运算且运算次数与其...

35813
来自专栏salesforce零基础学习

salesforce零基础学习(七十九)简单排序浅谈 篇一

我们在程序中经常需要对数据列表进行排序,有时候使用SOQL的order by 不一定能完全符合需求,需要对数据进行排序,排序可以有多种方式,不同的方式针对不同的...

1977
来自专栏小勇DW3

LinkedHashMap 源码分析

LinkedHashMap 继承自 HashMap,在 HashMap 基础上,通过维护一条双向链表,解决了 HashMap 不能随时保持遍历顺序和插入顺序一致...

783

扫码关注云+社区