pandas 使用指南

备案控制台

登录注册

在线学习中心课程pandas 使用指南

16分钟

统计1

1. Series和DataFrame对象都支持Numpy的数组接口，因此可以直接使用Numpy提供的ufunc函数对它们进行运算。这些函数通常都有三个常用参数：

axis：指定运算沿着哪个轴进行
level：如果轴是多级索引MultiIndex，则根据level分组计算
skipna：运算是否自动跳过NaN

下面的方法使用如下的两个Series和DataFrame:

2. 数值运算类方法：（下面的DataFrame方法对于Series也适用）

DataFrame.abs()：计算绝对值（只对数值元素进行计算）
DataFrame.all([axis, bool_only, skipna, level])：返回指定轴上：是否所有元素都为True或者非零。bool_only为True则仅考虑布尔型的数据。
DataFrame.any([axis, bool_only, skipna, level]) ：返回指定轴上：是否存在某个元素都为True或者非零。bool_only为True则仅考虑布尔型的数据。
DataFrame.clip([lower, upper, axis]) ：将指定轴上的数据裁剪到[lower,upper]这个闭区间之内。超过upper的值裁剪成upper；小于lower的值裁剪成lower。
DataFrame.clip_lower(threshold[, axis])：返回一份拷贝，该拷贝是在指定轴上：向下裁剪到threshold
DataFrame.clip_upper(threshold[, axis])：返回一份拷贝，该拷贝是在指定轴上：向上裁剪到threshold
DataFrame.prod([axis, skipna, level, ...]) ：计算指定轴上的乘积
DataFrame.sum([axis, skipna, level, ...])：沿着指定轴，计算样本的和
DataFrame.cumsum([axis, skipna]) ：计算沿着axis轴的累积和。
DataFrame.cumprod([axis, skipna]) ：计算沿着axis轴的累积乘积。
DataFrame.count([axis, level, numeric_only])：计算沿着axis轴，level级索引的非NaN值的数量。如果numeric_only为True，则只考虑数值和布尔类型。

对于Series，只有level一个参数。
DataFrame.round([decimals]) ：对元素指定小数点位数。decimals可以为一个整数（所有的元素都按照该小数点位数）、一个字典（根据列label指定）

3. 最大最小：（下面的DataFrame方法对于Series也适用）

DataFrame.max([axis, skipna, level, ...])：沿着指定轴，计算最大值
DataFrame.min([axis, skipna, level, ...])：沿着指定轴，计算最小值
Series.argmax([axis, skipna, ...])：计算最大值的索引位置（一个整数值）

pandas 0.20 以后，它返回的不再是索引位置，而是索引 label，等价于 idxmax
Series.argmin([axis, skipna, ...])：计算最小值的索引位置（一个整数值）
pandas 0.20 以后，它返回的不再是索引位置，而是索引 label，等价于 idxmin
Series.idxmax([axis, skipna, ...])：计算最大值的索引label
Series.idxmin([axis, skipna, ...])：计算最小值的索引label
DataFrame.cummax([axis, skipna]) ：计算沿着axis轴的累积最大值。
DataFrame.cummin([axis, skipna]) ：计算沿着axis轴的累积最最小值。
DataFrame.quantile([q, axis, numeric_only, ...])：计算指定轴上样本的百分位数。q为一个浮点数或者一个array-like。每个元素都是 0~1之间。如 0.5代表 50%分位
DataFrame.rank([axis, method, numeric_only, ...])：计算指定轴上的排名。
DataFrame.pct_change([periods, fill_method, ...])：计算百分比变化。periods为相隔多少个周期。它计算的是：(s[i+periods]-s[i])/s[i]，注意结果并没有乘以 100。
Series.nlargest( *args,**kwargs)：计算最大的N个数。参数为：
n：最大的多少个数
keep：遇到重复值时怎么处理。可以为：'first'/'last'。
Series.nsmallest( *args,**kwargs)：计算最小的N个数。参数同上。

直播支持申请

目录

评价

推荐

1. 基本数据结构

基本数据结构

Series

Index1

Index2

MultiIndex

DataFrame1

DataFrame2

2. 内部数据结构

Index

MultiIndex

Seris

DataFrame

3. 下标存取

[ ] 操作符1

[ ] 操作符2

loc/iloc/ix 存取器1

loc/iloc/ix 存取器2

at/iat 存取器1

at/iat 存取器2

query 方法

多级索引

整数 label

4. 运算

数值运算

排序1

排序2

统计1

统计2

5. 变换

索引和轴的变换1

索引和轴的变换2

合并数据1

合并数据2

索引旋转

6. 数据清洗

移除重复数据

apply1

apply2

缺失数据1

缺失数据2

离散化

7. 字符串操作

字符串操作

8. 聚合与分组

分组1

分组2

GroupBy对象1

GroupBy对象2

分组级运算

透视表和交叉表1

透视表和交叉表2

9. 时间序列

时间序列

Python 中的时间

时区

time 模块

datetime 模块1

datetime 模块2

时间点 Timestamp

DateOffset

Timedelta

时间段 Period

pands

.to_period(freq)

.asfreq()

DatetimeIndex

pandas.date_range()

Series

DatetimeIndex的方法

PeriodIndex

pandas.period_range()

PeriodIndex的方法

shift()

resampling

resample