pandas 使用指南

备案控制台

登录注册

在线学习中心课程pandas 使用指南

14分钟

统计2

4. 统计类方法：（下面的DataFrame方法对于Series也适用）

DataFrame.mean([axis, skipna, level, ...])：沿着指定轴，计算平均值
DataFrame.median([axis, skipna, level, ...])：沿着指定轴，计算位于中间大小的数
DataFrame.var([axis, skipna, level, ddof, ...])：沿着指定轴，计算样本的方差
DataFrame.std([axis, skipna, level, ddof, ...])：沿着指定轴，计算样本的标准差
DataFrame.mad([axis, skipna, level])：沿着指定轴，根据平均值计算平均绝对离差
DataFrame.diff([periods, axis])：沿着指定轴的一阶差分。periods为间隔。
DataFrame.skew([axis, skipna, level, ...])：沿着指定轴计算样本的偏度（二阶矩）
DataFrame.kurt([axis, skipna, level, ...])：沿着指定轴，计算样本的峰度（四阶矩）
- 对随机变量 X，E(X^k),k=1,2,... 若存在，则称它为 X 的 k 阶原点矩，简称 k 阶矩。若 E[(X-E(X))^k],k=1,2,... 存在，则称它为 X 的 k 阶中心矩。
DataFrame.describe([percentiles, include, ...])：获取顺序统计量以及其他的统计结果。
- percentiles：一个array-like。每个元素都是 0~1之间。如 0.5代表 50%分位
- include,exclude：指定包含/不包含哪些列（通过dtype来指定）。可以为None/'all'，或者一个dtype列表
DataFrame.corr([method, min_periods])：计算任意两个列之间的非NAN的、按照索引对齐的值的相关系数。method为相关系数的类型，可以为：
- 'pearson'：标准的相关系数
- 'kendall'：Kendall Tau相关系数
- 'spearman'：Spearman rank相关系数
而min_periods：一个整数。它指定为了生成一个有效的相关系数，每一对列数据的最短长度。
DataFrame.corrwith(other[, axis, drop]) ：计算两个DataFrame的行-行、列-列的相关系数。
- axis：如果为0/'index'则沿着0轴，则计算列-列之间的相关系数。如果为1/'columns'，则沿着1轴，计算行-行之间的相关系数
- drop：一个布尔值。如果为True，则如果某行/列都是NaN，则抛弃该行/列。如果为False，则返回全部。
DataFrame.cov([min_periods])：计算任意两列之间的协方差。min_periods指定为了生成一个有效的协方差，每一对列数据的最短长度。
- 对于Series，其调用为：Series.cov(other,[min_periods])

5. 对于Series：唯一值、值计数、成员资格：

Series.unique()：返回Series中唯一值组成的一维ndarray
Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)：对Series中的数进行计数。如果normalize为True，则返回频率而不是频数。sort为True则结果根据出现的值排序，排序方式由ascending指定。
- bins是一个整数或者None。如果它为整数，则使用半开半闭区间来统计，它给出了该区间的数量。
Series.isin(values)：返回一个布尔数组，给出Series中各值是否位于values中。

DataFrame也有此方法。

6. 对于多级索引，可以通过level参数来指定在某个轴上的操作索引级别。如果level=None，则不考虑索引的多级。

上一节: 统计1 下一节: 索引和轴的变换1

直播支持申请

目录

评价

推荐

1. 基本数据结构

基本数据结构

Series

Index1

Index2

MultiIndex

DataFrame1

DataFrame2

2. 内部数据结构

Index

MultiIndex

Seris

DataFrame

3. 下标存取

[ ] 操作符1

[ ] 操作符2

loc/iloc/ix 存取器1

loc/iloc/ix 存取器2

at/iat 存取器1

at/iat 存取器2

query 方法

多级索引

整数 label

4. 运算

数值运算

排序1

排序2

统计1

统计2

5. 变换

索引和轴的变换1

索引和轴的变换2

合并数据1

合并数据2

索引旋转

6. 数据清洗

移除重复数据

apply1

apply2

缺失数据1

缺失数据2

离散化

7. 字符串操作

字符串操作

8. 聚合与分组

分组1

分组2

GroupBy对象1

GroupBy对象2

分组级运算

透视表和交叉表1

透视表和交叉表2

9. 时间序列

时间序列

Python 中的时间

时区

time 模块

datetime 模块1

datetime 模块2

时间点 Timestamp

DateOffset

Timedelta

时间段 Period

pands

.to_period(freq)

.asfreq()

DatetimeIndex

pandas.date_range()

Series

DatetimeIndex的方法

PeriodIndex

pandas.period_range()

PeriodIndex的方法

shift()

resampling

resample