> 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas
前言
本系列有一篇文章是关于 pandas 实现 Excel 中的分列功能,后来有小伙伴问我,怎么实现 Excel 中固定列宽分列功能。这次就看看几个奇葩的数据案例。
案例1
某公司系统,有一 id 列,其中一部分是表示用户出生日期:
Excel 上可以用分列功能:
pandas 中,我们不需要用 split ,而是直接用切片提取:
> df.str[4:12] 相当于 df.str.slice(4,12)
案例2
有些系统有时候不会太人性化,比如,id 中的日期的起始位置是不固定的:
pandas 中的文本切片与 Python 中的切片一样,因此我们可以这样处理:
案例3
这是一个"抬杠案例":
我们当然可以用正则表达式提取,这次我选用一种特别的方式完成:
相信很多人不理解其中的原理,特别是其中的 sed 构造,看看下面的对应图:
你 get 到了吗?
总结