前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何利用 pandas 根据数据类型进行筛选?

如何利用 pandas 根据数据类型进行筛选?

作者头像
刘早起
发布2022-09-21 10:52:14
1.2K0
发布2022-09-21 10:52:14
举报
文章被收录于专栏:早起Python早起Python

大家好,我是早起。

前两天,有一位读者在知识星球提出了一个关于 pandas 数据清洗的问题。

他的数据大致如下

现在希望分别做如下清洗

  1. A列中非字符行
  2. B列中非日期行
  3. C列中数值形式行(包括科学计数法的数值)
  4. D列中非整数行
  5. 删掉C列中大小在10%-90%范围之外的行

其实本质上都是「数据筛选」的问题,先来模拟下数据

如上图所示,基本上都是根据数据类型进行数据筛选,下面逐个解决。

取出所有非整数类型

让我们从第 4 题开始,取出 D 列全部非整数行,其实在 pandas 中可以使用.is_integer() 判断一个元素是否为整数。

这样我们就能结合 apply 函数找到全部整数行

再使用 ~ 取其补集即可得到答案

df[~df[['D']].apply(lambda x: x[0].is_integer(), axis=1)]

取出所有数值类型

第 3 题要求取出 C 列所有数值形式的行。

pandas 同样有直接判断的函数 .isdigit() 判断是否为数值。

所以同上可以结合 apply 函数轻松搞定~

df[df['C'].str.isdigit().isnull()].dropna()

取出非日期行

至于第 2 题,pandas 中虽有直接判断时间格式函数,但由于存在其他类型数据,该列为object,并不能直接判断。

所以只要我们将该列转换为时间格式(见习题 8-12)就会将不支持转换的格式修改为缺失值

这样在转换后删除确实值即可

取出非字符行

至于第 1 题,我们可以借助 Python 中 isinstance 函数判断一个变量是否为字符串格式

再同样借助 apply 函数即可找到全部字符串的行,然后使用 ~ 取其补集即可

自定义异常值范围

最后是一个看上去是异常值处理的问题,但本质上还是数据筛选

直接计算该列的指定范围,并多条件筛选即可。

至此我们就成功利用 pandas 根据 数据类型 进行筛选值。其实这些题都在「pandas进阶修炼300题」中有类似的存在。

当然本文的内容也将再次整理后添加至第 9 章「其他未提及操作中」,点击下方图片即可了解习题详情~

点击下载「pandas进阶修炼300题」👇

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 早起Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 取出所有非整数类型
  • 取出所有数值类型
  • 取出非日期行
  • 取出非字符行
  • 自定义异常值范围
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档