这是一个关于 pandas 从基础到进阶的练习题系列,来源于 github 上的 guipsamora/pandas_exercises 。这个项目从基础到进阶,可以检验你有多么了解 pandas。
我会挑选一些题目,并且提供比原题库更多的解决方法以及更详尽的解析。
计划每天更新一期,希望各位小伙伴先自行思考,再查看答案。如果对你有帮助,记得转发推荐给你的好友!
上期文章:pandas每天一题-题目13:文本筛选
后台回复"数据",可以下载本题数据集
如下数据:
1import pandas as pd
2import numpy as np
3
4df = pd.read_csv('chipotle.tsv',
5 sep='\t',
6 converters={'item_price': lambda x: float(x[1:-1])})
数据描述:
前面章节讲解过的知识点,本文不再讲解!
**需求:新增一列 unit_price ,计算方式为 item_price/quantity **
下面是答案了
注意,本文所有方式,都可以用于新增列和修改原有列数据
网络上最常出现的方式:
1df['unit_price'] = df['item_price'] / df['quantity']
2df
点评:
这种方式最大的缺点是修改了原数据
简单的表达式,可以使用 eval 进一步简化:
1df.eval('unit_price = item_price/quantity')
注意,方法返回一个新的 DataFrame,而原来的表格(df)并没有改变
点评:
为什么 eval 只能用在简单的表达式?因为复杂的表达式它无法从文本中解析。
而方式1又比较繁琐,并且会改变原数据。
为此,pandas 提供一个方法:
1df.assign(unit_price = df.item_price/df.quantity)
初学者可能不太理解这里的写法,实际上它只不过是普通的方法调用。
1value = df.item_price/df.quantity
2df.assign(unit_price = value)
assign 方法是动态参数,也就是说任何 df 没有的列名作为参数,视为新增列。存在的列名作为参数,视为覆盖原有列
但是,这种设计有一个缺陷,python 参数名字是有限制,比如参数名字不能有空格。
那么如果列名真的需要有空格怎么办?
我们可以利用字典解包方式调用方法:
1args = {
2 '单 价':df.item_price/df.quantity
3}
4df.assign(**args)
这里还不能体现出复杂表达式的场景,例如我们加载数据时没有处理 item_price 列,此时这一列是文本。
我们可以在表达式中做文本转数值以及计算单价2步操作:
1df = pd.read_csv('chipotle.tsv', sep='\t')
2
3args = {
4 '单 价': df.item_price.apply(lambda x: float(x[1:-1])) / df.quantity
5}
6
7df.assign(**args)
关于文本转数值请回看之前的章节
推荐阅读: