pandas 使用指南

备案控制台

登录注册

在线学习中心课程pandas 使用指南

8分钟

移除重复数据

1. Series/DataFrame.duplicated(*args, **kwargs)：返回一个布尔Series，指示调用者中，哪些行是重复的（重复行标记为True）。

keep：一个字符串或者False，指示如何标记。它代替了废弃的参数take_last
- 'first'：对于重复数据，第一次出现时标记为False，后面出现时标记为True
- 'last'：对于重复数据，最后一次出现时标记为False，前面出现时标记为True
- False：对于重复数据，所有出现的地方都标记为True

而Series/DataFrame.drop_duplicates(*args, **kwargs)：返回重复行被移除之后的Series/DataFrame。

keep：一个字符串或者False，指示如何删除。它代替了废弃的参数take_last
- 'first'：对于重复数据，保留第一次出现，后面出现时删除
- 'last'：对于重复数据，最后一次出现时保留，前面出现时删除
- False：对于重复数据，删除所有出现的位置
inplace：一个布尔值。如果为True，则原地修改。否则返回新建的对象。

对于DataFrame，还有个 subset参数。它是column label或者其列表，给出了考虑哪些列的重复值。默认考虑所有列。（即一行中哪些字段需要被考虑）

直播支持申请

目录

评价

推荐

1. 基本数据结构

基本数据结构

Series

Index1

Index2

MultiIndex

DataFrame1

DataFrame2

2. 内部数据结构

Index

MultiIndex

Seris

DataFrame

3. 下标存取

[ ] 操作符1

[ ] 操作符2

loc/iloc/ix 存取器1

loc/iloc/ix 存取器2

at/iat 存取器1

at/iat 存取器2

query 方法

多级索引

整数 label

4. 运算

数值运算

排序1

排序2

统计1

统计2

5. 变换

索引和轴的变换1

索引和轴的变换2

合并数据1

合并数据2

索引旋转

6. 数据清洗

移除重复数据

apply1

apply2

缺失数据1

缺失数据2

离散化

7. 字符串操作

字符串操作

8. 聚合与分组

分组1

分组2

GroupBy对象1

GroupBy对象2

分组级运算

透视表和交叉表1

透视表和交叉表2

9. 时间序列

时间序列

Python 中的时间

时区

time 模块

datetime 模块1

datetime 模块2

时间点 Timestamp

DateOffset

Timedelta

时间段 Period

pands

.to_period(freq)

.asfreq()

DatetimeIndex

pandas.date_range()

Series

DatetimeIndex的方法

PeriodIndex

pandas.period_range()

PeriodIndex的方法

shift()

resampling

resample