> 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas
前言
做数据分析时,当你拿到一份 Excel 数据之后,我相信你还没有看数据,心就已经凉了一半。这是因为大概率数据格式"好看不好算",今天来看看怎么解决报表格式常见的合并单元格问题。
案例1
今天你接到一个分析需求,需要统计2年内个城市月度平均销量。
你心里期待公司系统导出的数据是这样子:
实际导出的是这样子:
你的脸色开始凝重了,因为发现正常导入后的 DataFrame 是这个鬼样子:
其实很容易解决,pandas 中有填充空值的方法:
现在你终于放下心头大石,轻松解决城市月度均销量数据:
> pd.Grouper 可以使用各种频率,具体内容请看专栏第19节内容
案例2
有时候你会遇到多列的合并单元格:
pandas 中大部分操作都能在多列间进行:
---
案例3
许多初学者对 pandas 有一种错觉,觉得遇到不同的数据就要重复写代码,其实我们完全可以写出许多便捷的方法。
比如,我们可以遍历一个 DataFrame 的列以及类型,发现是文本则自动调用 ffill 方法,这样不管数据有多少合并单元格列,都可以全自动填充:
现在只需要简单调用此方法即可,甚至不需要指定哪些列:
> 代码的灵活性在于你能够按照自己的想法,随意组装功能。别再以为教程所有的代码都需要重复编写
总结