前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >pandas每天一题-题目14:新增列的多种方式

pandas每天一题-题目14:新增列的多种方式

作者头像
咋咋
发布2021-09-01 14:22:39
6650
发布2021-09-01 14:22:39
举报
文章被收录于专栏:数据大宇宙

这是一个关于 pandas 从基础到进阶的练习题系列,来源于 github 上的 guipsamora/pandas_exercises 。这个项目从基础到进阶,可以检验你有多么了解 pandas。

我会挑选一些题目,并且提供比原题库更多的解决方法以及更详尽的解析

计划每天更新一期,希望各位小伙伴先自行思考,再查看答案。如果对你有帮助,记得转发推荐给你的好友!

上期文章:pandas每天一题-题目13:文本筛选

后台回复"数据",可以下载本题数据集

如下数据:

代码语言:javascript
复制
1import pandas as pd
2import numpy as np
3
4df = pd.read_csv('chipotle.tsv',
5                 sep='\t',
6                 converters={'item_price': lambda x: float(x[1:-1])})

数据描述:

  • 此数据是订单明细表。一个订单会包含很多明细项,表中每个样本(每一行)表示一个明细项
  • order_id 列存在重复
  • item_name 是明细项物品名称
  • quantity 是明细项数量
  • item_price 是该明细项的总价钱

前面章节讲解过的知识点,本文不再讲解!

**需求:新增一列 unit_price ,计算方式为 item_price/quantity **

下面是答案了

注意,本文所有方式,都可以用于新增列和修改原有列数据


方式1

网络上最常出现的方式:

代码语言:javascript
复制
1df['unit_price'] = df['item_price'] / df['quantity']
2df

点评:

这种方式最大的缺点是修改了原数据


方式2

简单的表达式,可以使用 eval 进一步简化:

代码语言:javascript
复制
1df.eval('unit_price = item_price/quantity')

注意,方法返回一个新的 DataFrame,而原来的表格(df)并没有改变

点评:

  1. eval 非常适合一些简单的表达式
  2. 由于计算逻辑是字符串,此时可以把计算逻辑放入 excel 表格中
  3. 不会修改原数据,适合临时数据列

方式3

为什么 eval 只能用在简单的表达式?因为复杂的表达式它无法从文本中解析。

而方式1又比较繁琐,并且会改变原数据。

为此,pandas 提供一个方法:

代码语言:javascript
复制
1df.assign(unit_price = df.item_price/df.quantity)

初学者可能不太理解这里的写法,实际上它只不过是普通的方法调用。

代码语言:javascript
复制
1value = df.item_price/df.quantity
2df.assign(unit_price = value)
  • 行1:2个列计算,得到的仍然是一列(Series)
  • 行2:调用 assign 方法,给参数 unit_price 赋值

assign 方法是动态参数,也就是说任何 df 没有的列名作为参数,视为新增列。存在的列名作为参数,视为覆盖原有列

但是,这种设计有一个缺陷,python 参数名字是有限制,比如参数名字不能有空格。

那么如果列名真的需要有空格怎么办?

我们可以利用字典解包方式调用方法:

代码语言:javascript
复制
1args = {
2    '单 价':df.item_price/df.quantity
3}
4df.assign(**args)

这里还不能体现出复杂表达式的场景,例如我们加载数据时没有处理 item_price 列,此时这一列是文本。

我们可以在表达式中做文本转数值以及计算单价2步操作:

代码语言:javascript
复制
1df = pd.read_csv('chipotle.tsv', sep='\t')
2
3args = {
4    '单 价': df.item_price.apply(lambda x: float(x[1:-1])) / df.quantity
5}
6
7df.assign(**args)

关于文本转数值请回看之前的章节


推荐阅读:

  1. 懂Excel就能轻松入门Python数据分析包pandas(十二):多列堆叠
  2. 懂Excel就能轻松入门Python数据分析包pandas(十一):分段匹配
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据大宇宙 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 方式1
  • 方式2
  • 方式3
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档