前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >盘点一个Pandas数据清洗题目

盘点一个Pandas数据清洗题目

作者头像
前端皮皮
发布2022-08-17 16:58:04
2320
发布2022-08-17 16:58:04
举报
文章被收录于专栏:前端进阶学习交流

大家好,我是皮皮。

一、前言

前几天在Python白银交流群有个叫【冻豺】的粉丝问了一道Python清洗数据的问题,这里拿出来给大家分享下,一起学习下。

如何才能把pandas serise里乱七八糟的字符清理干净呢?

二、解决过程

【dcpeng】解答

这里给出了一个示例的代码,使用了applylambda和正则表达式,一气呵成,只需要稍微修改下,匹配自己的数据就可以了。

代码语言:javascript
复制
df['主营业务']=df['主营业务'].astype('str').apply(lambda x: re.sub('[0-9+,,.。…、“”^_?::’‘''""()();;【】!!*?]+', '', x))

不过这个是通用的,也会把数字干掉,如果想适配自己的数据,还需要稍微修改下。

这样问题就完美解决了,另外的话,遇到特殊字符什么的,都可以优先使用re.sub或者replace()函数,事半功倍。

三、总结

大家好,我是皮皮。这篇文章主要分享了一个Pandas数据清洗题目,针对该问题给出了具体的解析和代码演示,一共两个方法,帮助粉丝顺利解决了问题。相信肯定还有其他方法的,欢迎大家积极尝试,如果有好方法,记得也分享给我噢,我帮助分享到群里,大家一起学习交流!

最后感谢【冻豺】提问,感谢【dcpeng】和【月神】大佬给出的具体解析和代码演示,感谢【冯诚】等人参与学习交流。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python共享之家 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言
  • 二、解决过程
    • 【dcpeng】解答
    • 三、总结
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档