首页
学习
活动
专区
圈层
工具
发布
50 篇文章
1
【原创佳作】介绍Pandas实战中一些高端玩法
2
pandas 如何实现 excel 中的汇总行?
3
pandas多级索引的骚操作!
4
40000字 Matplotlib 实操干货,真的全!
5
利用Python搞定女朋友的小情绪~
6
Python 绘制惊艳的瀑布图
7
6种方式创建多层索引
8
Python 进阶指南(编程轻松进阶):三、使用 Black 工具来格式化代码
9
数据科学 IPython 笔记本 9.6 聚合:最小、最大和之间的任何东西
10
精通 Pandas 探索性分析:1~4 全
11
高手系列!数据科学家私藏pandas高阶用法大全 ⛵
12
总结了67个pandas函数,完美解决数据处理,拿来即用!
13
PyAutoGUI,一个Python办公自动化利器!
14
解放双手|利用 PyAutoGUI 快速构建自动化操作脚本
15
Python中内置数据库!SQLite使用指南! ⛵
16
数据分析索引总结(中)Pandas多级索引
17
数据分析索引总结(下)Pandas索引技巧
18
数据分析索引总结(上)Pandas单级索引
19
网友需求系列01-Python-matplotlib定制化刻度(主副)绘制
20
用Python自动生成数据分析报告
21
手把手教你用Python操纵Word自动编写离职报告
22
pandas transform 数据转换的 4 个常用技巧!
23
30段极简Python代码:这些小技巧你都Get了么
24
数据处理遇到麻烦不要慌,5个优雅的Numpy函数助你走出困境
25
数据分析最有用的Top 50 Matplotlib图(带有完整的Python代码)(上)
26
数据分析最有用的Top 50 Matplotlib图(带有完整的Python代码)(下)
27
数据分析之Pandas变形操作总结
28
数据分析之Pandas缺失数据处理
29
数据分析之Pandas合并操作总结
30
数据分析之Pandas分组操作总结
31
学习用Pandas处理分类数据!
32
如何用Pandas处理文本数据?
33
Pandas处理时序数据(初学者必会)!
34
Python高阶函数使用总结!
35
机器学习在金融风控的经验总结!
36
你知道怎么用Pandas绘制带交互的可视化图表吗?
37
6个提升效率的pandas小技巧
38
Python数据分析库pandas高级接口dt和str的使用
39
pandas 拼接 concat 5 个常用技巧!
40
pandas分组8个常用技巧!
41
pandas 文本处理大全
42
pandas 筛选数据的 8 个骚操作
43
pandas 分类数据处理大全(附代码)
44
68 个Python内置函数,你用过几个?
45
太秀了!用 pandas 搞定 24 张 Excel 报表
46
用 Python 的 Template 类生成文件报告
47
码如其人,同学你能写一手漂亮的Python函数吗
48
Python处理图片九宫格,炫酷朋友圈
49
Python排序傻傻分不清?一文看透sorted与sort用法
50
python-docx操作word文件(
清单首页python文章详情

【原创佳作】介绍Pandas实战中一些高端玩法

相信大家平常在工作学习当中,需要处理的数据集是十分复杂的,数据集当中的索引也是有多个层级的,那么今天小编就来和大家分享一下DataFrame数据集当中的分层索引问题。

什么是多重/分层索引

多重/分层索引(MultiIndex)可以理解为堆叠的一种索引结构,它的存在为一些相当复杂的数据分析和操作打开了大门,尤其是在处理高纬度数据的时候就显得十分地便利,我们首先来创建带有多重索引的DataFrame数据集

多重索引的创建

首先在“列”方向上创建多重索引,即我们在调用columns参数时传递两个或者更多的数组,代码如下

代码语言:javascript
复制
df1 = pd.DataFrame(np.random.randint(0, 100, size=(2, 4)),
                   index= ['ladies', 'gentlemen'],
                   columns=[['English', 'English', 'French', 'French'],
                            ['like', 'dislike', 'like', 'dislike']])

output

那么同理我们想要在“行”方向上存在多重索引,则是在调用index参数的时候传递两个或者更多数组即可,代码如下

代码语言:javascript
复制
df = pd.DataFrame(np.random.randint(0, 100, size=(4, 2)),
                   index= [['English','', 'Chinese',''],
                           ['like','dislike','like','dislike']],
                   columns=['ladies', 'gentlemen'])

output

除此之外,还有其他几种常见的方式来创建多重索引,分别是

  • pd.MultiIndex.from_arrays
  • pd.MultiIndex.from_frame
  • pd.MultiIndex.from_tuples
  • pd.MultiIndex.from_product

小编这里就挑其中的一种来为大家演示如何来创建多重索引,代码如下

代码语言:javascript
复制
df2 = pd.DataFrame(np.random.randint(0, 100, size=(4, 2)), 
                   columns= ['ladies', 'gentlemen'],
                   index=pd.MultiIndex.from_product([['English','French'],
                                                    ['like','dislike']]))

output

获取多重索引的值

接下来我们来看一下怎么获取带有多重索引的数据集当中的数据,使用到的数据集是英国三大主要城市伦敦、剑桥和牛津在2019年全天的气候数据,如下所示

代码语言:javascript
复制
import pandas as pd
from pandas import IndexSlice as idx 

df = pd.read_csv('dataset.csv',
    index_col=[0,1],
    header=[0,1]
)
df = df.sort_index()
df

output

在“行”索引上,我们可以看到是“城市”以及“日期”这两个维度,而在“列”索引上,我们看到的是则是“不同时间段”以及一些“气温”等指标,首先来看一下“列”方向多重索引的层级,代码如下

代码语言:javascript
复制
df.columns.levels

output

代码语言:javascript
复制
FrozenList([['Day', 'Night'], ['Max Temperature', 'Weather', 'Wind']])

我们想要获取第一层级上面的索引值,代码如下

代码语言:javascript
复制
df.columns.get_level_values(0)

output

代码语言:javascript
复制
Index(['Day', 'Day', 'Day', 'Night', 'Night', 'Night'], dtype='object')

那么同理,第二层级的索引值,只是把当中的0替换成1即可,代码如下

代码语言:javascript
复制
df.columns.get_level_values(1)

output

代码语言:javascript
复制
Index(['Weather', 'Wind', 'Max Temperature', 'Weather', 'Wind',
       'Max Temperature'],
      dtype='object')

那么在“行”方向上多重索引值的获取也是一样的道理,这里就不多加以赘述了

数据的获取

那么涉及到数据的获取,方式也有很多种,最常用的就是loc()方法以及iloc()方法了,例如

代码语言:javascript
复制
df.loc['London' , 'Day']
## 或者是
df.loc[('London', ) , ('Day', )]

output

通过调用loc()方法来获取第一层级上的数据,要是我们想要获取所有“行”的数据,代码如下

代码语言:javascript
复制
df.loc[:, 'Day']
## 或者是
df.loc[:, ('Day',)]

output

或者是所有“列”的数据,代码如下

代码语言:javascript
复制
df.loc['London' , :]
## 或者是
df.loc[('London', ) , :]

output

当然我们也可以这么来做,在行方向上指定第二层级上的索引,代码如下

代码语言:javascript
复制
df.loc['London' , '2019-07-02']
## 或者是
df.loc[('London' , '2019-07-02')]

output

多重索引的数据获取

假设我们想要获取剑桥在2019年7月3日白天的数据,代码如下

代码语言:javascript
复制
df.loc['Cambridge', 'Day'].loc['2019-07-03']

output

在第一次调用loc['Cambridge', 'Day']的时候返回的是DataFrame数据集,然后再通过调用loc()方法来提取数据,当然这里还有更加快捷的方法,代码如下

代码语言:javascript
复制
df.loc[('Cambridge', '2019-07-01'), 'Day']

我们需要传入元祖的形式的索引值来进行数据的提取。要是我们不只是想要获取单行或者是单列的数据,可以这么来操作

代码语言:javascript
复制
df.loc[ 
    ('Cambridge' , ['2019-07-01','2019-07-02'] ) ,
    'Day'
]

output

或者是获取多列的数据,代码如下

代码语言:javascript
复制
df.loc[ 
    'Cambridge' ,
    ('Day', ['Weather', 'Wind'])
]

output

我们要是想要获取剑桥在2019年7月1日到3日,连续3天的白天气候数据,代码如下

代码语言:javascript
复制
df.loc[
    ('Cambridge', '2019-07-01': '2019-07-03'),
    'Day'
]

output

这么来写是会报语法错误的,正确的方法应该是这么来做,

代码语言:javascript
复制
df.loc[
    ('Cambridge','2019-07-01'):('London','2019-07-03'),
    'Day'
]

xs()方法的调用

小编另外推荐xs()方法来指定多重索引中的层级,例如我们只想要2019年7月1日各大城市的数据,代码如下

代码语言:javascript
复制
df.xs('2019-07-01', level='Date')

output

还能够接受多个维度的索引,例如想要获取伦敦在2019年7月4日的全天数据,代码如下

代码语言:javascript
复制
df.xs(('London', '2019-07-04'), level=['City','Date'])

output

另外还有axis参数来指定是获取“列”方向还是“行”方向上的数据,例如我们想要获取“Weather”这一列的数据,代码如下

代码语言:javascript
复制
df.xs('Weather', level=1, axis=1)

output

当中的level参数代表的是层级,我们将其替换成0,看一下出来的结果

代码语言:javascript
复制
df.xs('Day', level=0, axis=1)

output

筛选出来的是三个主要城市2019年白天的气候数据

IndexSlice()方法的调用

同时Pandas内部也提供了IndexSlice()方法来方便我们更加快捷地提取出多重索引数据集中的数据,代码如下

代码语言:javascript
复制
from pandas import IndexSlice as idx
df.loc[ 
    idx[: , '2019-07-04'], 
    'Day'
]

output

我们同时可以指定行以及列方向上的索引来进行数据的提取,代码如下

代码语言:javascript
复制
rows = idx[: , '2019-07-02']
cols = idx['Day' , ['Max Temperature','Weather']]
df.loc[rows, cols]

output

下一篇
举报
领券