Excel数据处理你是选择Vba还是Python？当然是选pandas！

咋咋

发布于 2021-09-01 15:28:02

3.4K0

发布于 2021-09-01 15:28:02

文章被收录于专栏：数据大宇宙

前言

本号之前已经分享过关于如何使用 Python 中的数据处理分析包 pandas 处理 Excel 的数据，本文继续分享一个小案例，此案例源于上周末帮朋友做的一个需求，并且是以 vba 编写解决，后来我用 Python 再解决一次，通过本文作简单分享。

数据与需求

此案例的数据如下：

此案例的数据对所有敏感数据进行随机生成替换

需求结果如下图：

vba 的方案简短分析

本文的核心不是 vba ，因此这里只做简单的讲解，如果你是 vba 用户，可以获取源码查看。

vba 的解决方案尽可能采用了面向对象的方式进行，下图为主要结构：

如果你是 vba 的高级用户，可能会觉得直接使用字典+数组的方式即可完成，但注意，直接字典+数组方式会导致代码难以维护

Python 的方案

上面说的 vba 方案，我大概花费了接近1小时的时间(vba 中编写类模块太繁琐了)，期间有一个需求变动，得益于面向对象的优点，在几分钟内完成应对，并且无需要大范围做测试。

但是，这样的需求如果在 Python 中，我们的处理效率可以提高多少呢？我使用 Python 的 pandas 包处理，在5分钟内搞定，并且代码有非常好的阅读性与扩展性。

这次我们直接使用 pandas 读写 excel 数据，而无需使用 xlwings 库

首先定义需要的列与每列的统计方式：

接着定义加载 excel 数据到 DataFrame：

- 由于数据源的标题在第3行，因此在调用 read_excel 时，参数 header 设置为 None，表示不需要用 excel 中的数据行作为 DataFrame 的标题
- header=df.iloc[header_idx,:] ，把指定行的内容读取出来
- df.columns=header ，赋值作为 df 的标题
- df.dropna(subset=[g_pName]) ，把名字列中是空的行去掉

然后即可生成结果，如下：

但是，我们需要每个销售员单独一个 sheet 输出结果。如下图：

- with pd.ExcelWriter('result.xlsx') as exl: ，由于本案例需要对一个 excel 文件进行批量输出，因此不能直接使用 DataFrame.to_excel 。这里先创建一个 ExcelWriter对象
- res.index.get_level_values(0) ，从分组结果中获得销售人员列，但这里的输出是带重复值的，因此我们需要使用 set 去重复
- res.loc[idx,:] ，通过一个销售人员，即可获得这个销售员的货品汇总结果(是一个 DataFrame)，这时就可以调用 to_excel 输出结果
- to_excel 中的参数 startrow ，表示结果输出在第2行