前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >玩转 Pandas unique方法,告别数据重复烦恼

玩转 Pandas unique方法,告别数据重复烦恼

作者头像
用户4945346
发布2024-05-27 20:21:02
1980
发布2024-05-27 20:21:02
举报
文章被收录于专栏:pythonista的日常pythonista的日常

这是 pandas 快速上手系列的第 5 篇文章,本篇详细介绍了 unique 的使用和示例。pandas 库中的 unique 方法用于获取 DataFrame/Series 中唯一的值或记录。它通常用于查看数据中存在哪些唯一值、去重以及一些数据探索和清理任务。

语法:

代码语言:javascript
复制
DataFrame.unique() # 返回所有列的唯一值构成的 Numpy 数组
Series.unique() # 返回 Series 中的唯一值构成的 Numpy 数组

主要使用 unique 查看某列或整个 DataFrame 的唯一值有哪些。

代码语言:javascript
复制
In [30]: import pandas as pd
    ...:
    ...: # 创建示例 DataFrame
    ...: data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Charlie'],
    ...:         'Age': [25, 30, 35, 25, 35],
    ...:         'City': ['New York', 'Paris', 'London', 'New York', 'Sydney']}
    ...: df = pd.DataFrame(data)
    
In [59]: df
Out[59]:
      Name  Age      City
0    Alice   25  New York
1      Bob   30     Paris
2  Charlie   35    London
3    Alice   25  New York
4  Charlie   35    Sydney

In [31]: # 获取 Name 列的唯一值
    ...: print(df['Name'].unique())
['Alice' 'Bob' 'Charlie']

获取 DataFrame 中的唯一行记录,使用 drop_duplicates 方法,上面是行索引 0 的内容和行索引 3 的重复,所以会删除索引3的内容

代码语言:javascript
复制
In [32]: print(df.drop_duplicates())
      Name  Age      City
0    Alice   25  New York
1      Bob   30     Paris
2  Charlie   35    London
4  Charlie   35    Sydney

根据指定列索引去重,可以设置保留第一个或者最后一个值

代码语言:javascript
复制
In [33]: df.drop_duplicates(subset='Name', keep='first')
Out[33]:
      Name  Age      City
0    Alice   25  New York
1      Bob   30     Paris
2  Charlie   35    London
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 pythonista的日常 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档