前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >懂Excel就能轻松入门Python数据分析包pandas(七):分列

懂Excel就能轻松入门Python数据分析包pandas(七):分列

作者头像
Excel催化剂
发布2021-08-20 11:26:54
2.5K0
发布2021-08-20 11:26:54
举报
文章被收录于专栏:Excel催化剂Excel催化剂

> 经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

前言

今天从两个需求来看看数据分列功能,由于 Excel 自带功能比较弱,在处理稍微复杂的需求时会显得力不从心,因此,本系列文章将引入 Excel 中一个非常高效的数据处理插件—— Power Query,并且看看 pandas 是怎样灵活解决。

本文结构:

  • - 先看看简单的分列
  • - 接着尝试分割扩展成行
  • - 最后是多列分割扩展成行

Excel 分列

Excel 中对数据进行分列是非常简单的。如下:

  • - 选中需要处理的列
  • - 功能卡"数据","分列"按钮,即出现设置弹窗
  • - 选"分隔符号",点击下一步
  • - 左上部分,勾选"逗号",点击下一步
  • - 最后看到结果预览,没问题,直接点击完成

pandas 分列

pandas 对文本列进行分列,非常简单:

  • - DataFrame.str.split() ,对文本列分列,第一参数指定分隔符
  • - 此外,参数 expand ,表示是否扩展成列,若设置为 True ,则分割后的每个元素都成为单独一列。 这符合当前需求

复杂点的需求

有时候,我们希望分割的内容,转化成行,需求如下:

  • - 比如,第一行 张三 的科目中有3个元素,则分割结果 张三就有3行

使用 Excel 自带功能处理这需求就比较困难,我们使用 Power Query 来处理:

  • - 功能区"Power Query",点"从表/范围"
  • - 此时会启动 Power query 编辑窗口
  • - 点选 科目 整列
  • - 上方功能区"开始","转换"区中,点选"拆分列",选"按分隔符"
  • - 这里大部分设置与 Excel 自带功能基本一致
  • - 点开"高级选项",点选"拆分为"中的"行"
  • - 功能区"开始",最左边点按钮"关闭并上载",即可把结果输出会 Excel

> 请自行到官方网站下载此插件安装

那么 pandas 中怎么实现这需求:

  • - 先用 str.split 分割,但这次不需要 expand
  • - 调用 DataFrame.explode(),对某一序列类型的列进行展开

> 注意,explode 方法是 pandas 0.25 版本的新增方法

提升难度

假如现在有多列需要进行分割展开呢?如下:

  • - 同时把科目和成绩分割扩展到行

直接看 pandas 怎么解决:

  • - 先对 科目 与 成绩 列分别进行 split 后,再进行 explode
  • - 然后通过 concat,与原来的 性名 列合并

虽然实现了,但代码的语义不够清晰。编程语言的灵活性在此可以充分体现,我们把逻辑封装成一个函数 hp_explode ,以后需要使用时,简单调用即可:

  • - hp_explode() ,可自动识别内容是 list 的列进行扩展

> hp_explode 方法的定义不是本文的核心,需要源码的小伙伴看文末

不想调用 .str.split ?当然也支持:

  • - 一句搞定

总结

  • - Series.str.split() ,对文本列分割
  • - expand 参数指定是否扩展为列
  • - DataFrame.explode() ,对序列的列扩展成行,通常与 Series.str.split() 配合使用

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Excel催化剂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档