首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

盘点一个Excel数据分割和explode()实战问题

却看妻子愁何在,漫卷诗书喜欲狂。

大家好,我是皮皮。

一、前言

前几天在Python白银交流群【Jethro Shen】问了一个Pandas数据处理的问题。问题如下:各位大佬这种情况我怎么处理一下啊?标记的商品内容后后面的数量是一一对应的 想把它们铺开。

下面是他自己写的代码:

jigou_df = pd.read_excel(jigou_path)

data = {'商品内容':jigou_df['商品内容'],'数量':jigou_df['数量']}

df = pd.DataFrame(data)

df_expanded = df.assign(数量=df['数量'].astype(str).str.split(',')).explode('数量')

df_expanded.reset_index(drop=True, inplace=True)

df_expanded

不过运行结果不是他想要的。

二、实现过程

后来【瑜亮老师】给了一个提示:先对两列执行split,然后再对两列explode,df = df.explode(['商品内容', '数量']).reset_index(drop=True)

这里【东哥】给出了具体的代码,如下所示:

import pandas as pd

df = pd.read_excel("机构订单_202401091514_1.0.xlsx")

# 使用split()函数拆分【商品内容】列的内容

df['商品内容'] = df['商品内容'].str.split('、')

df['数量'] = df['数量'].str.split('、')

# 使用explode()函数将拆分后的结果与【数量】列的内容进行合并

result = df.explode(['商品内容', '数量']).reset_index(drop=True)

# result = df.explode('商品内容').reset_index(drop=True)

print(result)

结果是可以出来的,不过最后两行却是nan,这个是为啥?我看excel中数据类型是数值,不是字符串,得到的结果就是nan。

如果我把最后两行手动改为字符串格式的话,结果正常显示。

后来搞定了,df['数量'] = df['数量'].astype("string").str.split('、'),加一行转字符串就好了。

顺利地解决了粉丝的问题。也可以读取的时候直接dtype=str这样避免这类的问题,也可以用astype,还可以map的时候lambda中用str(x).split,反正方法很多,都可以避免这类的问题。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OxTrJBSrmv1khLuepl5FvZZQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券