首页
学习
活动
专区
圈层
工具
发布
50 篇文章
1
【原创佳作】介绍Pandas实战中一些高端玩法
2
pandas 如何实现 excel 中的汇总行?
3
pandas多级索引的骚操作!
4
40000字 Matplotlib 实操干货,真的全!
5
利用Python搞定女朋友的小情绪~
6
Python 绘制惊艳的瀑布图
7
6种方式创建多层索引
8
Python 进阶指南(编程轻松进阶):三、使用 Black 工具来格式化代码
9
数据科学 IPython 笔记本 9.6 聚合:最小、最大和之间的任何东西
10
精通 Pandas 探索性分析:1~4 全
11
高手系列!数据科学家私藏pandas高阶用法大全 ⛵
12
总结了67个pandas函数,完美解决数据处理,拿来即用!
13
PyAutoGUI,一个Python办公自动化利器!
14
解放双手|利用 PyAutoGUI 快速构建自动化操作脚本
15
Python中内置数据库!SQLite使用指南! ⛵
16
数据分析索引总结(中)Pandas多级索引
17
数据分析索引总结(下)Pandas索引技巧
18
数据分析索引总结(上)Pandas单级索引
19
网友需求系列01-Python-matplotlib定制化刻度(主副)绘制
20
用Python自动生成数据分析报告
21
手把手教你用Python操纵Word自动编写离职报告
22
pandas transform 数据转换的 4 个常用技巧!
23
30段极简Python代码:这些小技巧你都Get了么
24
数据处理遇到麻烦不要慌,5个优雅的Numpy函数助你走出困境
25
数据分析最有用的Top 50 Matplotlib图(带有完整的Python代码)(上)
26
数据分析最有用的Top 50 Matplotlib图(带有完整的Python代码)(下)
27
数据分析之Pandas变形操作总结
28
数据分析之Pandas缺失数据处理
29
数据分析之Pandas合并操作总结
30
数据分析之Pandas分组操作总结
31
学习用Pandas处理分类数据!
32
如何用Pandas处理文本数据?
33
Pandas处理时序数据(初学者必会)!
34
Python高阶函数使用总结!
35
机器学习在金融风控的经验总结!
36
你知道怎么用Pandas绘制带交互的可视化图表吗?
37
6个提升效率的pandas小技巧
38
Python数据分析库pandas高级接口dt和str的使用
39
pandas 拼接 concat 5 个常用技巧!
40
pandas分组8个常用技巧!
41
pandas 文本处理大全
42
pandas 筛选数据的 8 个骚操作
43
pandas 分类数据处理大全(附代码)
44
68 个Python内置函数,你用过几个?
45
太秀了!用 pandas 搞定 24 张 Excel 报表
46
用 Python 的 Template 类生成文件报告
47
码如其人,同学你能写一手漂亮的Python函数吗
48
Python处理图片九宫格,炫酷朋友圈
49
Python排序傻傻分不清?一文看透sorted与sort用法
50
python-docx操作word文件(
清单首页python文章详情

6种方式创建多层索引

6种方式创建多层索引MultiIndex

pd.MultiIndex即具有多个层次的索引。通过多层次索引,我们就可以操作整个索引组的数据。本文主要介绍在Pandas中创建多层索引的6种方式:

  • pd.MultiIndex.from_arrays():多维数组作为参数,高维指定高层索引,低维指定低层索引。
  • pd.MultiIndex.from_tuples():元组的列表作为参数,每个元组指定每个索引(高维和低维索引)。
  • pd.MultiIndex.from_product():一个可迭代对象的列表作为参数,根据多个可迭代对象元素的笛卡尔积(元素间的两两组合)进行创建索引。
  • pd.MultiIndex.from_frame:根据现有的数据框来直接生成
  • groupby():通过数据分组统计得到
  • pivot_table():生成透视表的方式来得到

pd.MultiIndex.from_arrays()

In [1]:

代码语言:javascript
复制
import pandas as pd
import numpy as np

通过数组的方式来生成,通常指定的是列表中的元素:

In [2]:

代码语言:javascript
复制
# 列表元素是字符串和数字
array1 = [["xiaoming","guanyu","zhangfei"],
          [22,25,27]
         ]

m1 = pd.MultiIndex.from_arrays(array1)
m1

Out[2]:

代码语言:javascript
复制
MultiIndex([('xiaoming', 22),
            (  'guanyu', 25),
            ('zhangfei', 27)],
           )

In [3]:

代码语言:javascript
复制
type(m1)  # 查看数据类型

通过type函数来查看数据类型,发现的确是:MultiIndex

Out[3]:

代码语言:javascript
复制
pandas.core.indexes.multi.MultiIndex

在创建的同时可以指定每个层级的名字:

In [4]:

代码语言:javascript
复制
# 列表元素全是字符串
array2 = [["xiaoming","guanyu","zhangfei"],
          ["male","male","female"]
         ]

m2 = pd.MultiIndex.from_arrays(
	array2,
  # 指定姓名和性别
  names=["name","sex"])
m2

Out[4]:

代码语言:javascript
复制
MultiIndex([('xiaoming',   'male'),
            (  'guanyu',   'male'),
            ('zhangfei', 'female')],
           names=['name', 'sex'])

下面的例子是生成3个层次的索引且指定名字:

In [5]:

代码语言:javascript
复制
array3 = [["xiaoming","guanyu","zhangfei"],
          ["male","male","female"],
          [22,25,27]
         ]

m3 = pd.MultiIndex.from_arrays(
	array3,
	names=["姓名","性别","年龄"])

m3

Out[5]:

代码语言:javascript
复制
MultiIndex([('xiaoming',   'male', 22),
            (  'guanyu',   'male', 25),
            ('zhangfei', 'female', 27)],
           names=['姓名', '性别', '年龄'])

pd.MultiIndex.from_tuples()

通过元组的形式来生成多层索引:

In [6]:

代码语言:javascript
复制
# 元组的形式
array4 = (("xiaoming","guanyu","zhangfei"),
          (22,25,27)
         )

m4 = pd.MultiIndex.from_arrays(array4)
m4

Out[6]:

代码语言:javascript
复制
MultiIndex([('xiaoming', 22),
            (  'guanyu', 25),
            ('zhangfei', 27)],
           )

In [7]:

代码语言:javascript
复制
# 元组构成的3层索引
array5 = (("xiaoming","guanyu","zhangfei"),
          ("male","male","female"),
          (22,25,27))

m5 = pd.MultiIndex.from_arrays(array5)
m5

Out[7]:

代码语言:javascript
复制
MultiIndex([('xiaoming',   'male', 22),
            (  'guanyu',   'male', 25),
            ('zhangfei', 'female', 27)],
           )

列表和元组是可以混合使用的

  • 最外层是列表
  • 里面全部是元组

In [8]:

代码语言:javascript
复制
array6 = [("xiaoming","guanyu","zhangfei"),
          ("male","male","female"),
          (18,35,27)
         ]
# 指定名字
m6 = pd.MultiIndex.from_arrays(array6,names=["姓名","性别","年龄"])
m6

Out[8]:

代码语言:javascript
复制
MultiIndex([('xiaoming',   'male', 18),
            (  'guanyu',   'male', 35),
            ('zhangfei', 'female', 27)],
           names=['姓名', '性别', '年龄'] # 指定名字
           )

pd.MultiIndex.from_product()

使用可迭代对象的列表作为参数,根据多个可迭代对象元素的笛卡尔积(元素间的两两组合)进行创建索引。

在Python中,我们使用 isinstance()函数 判断python对象是否可迭代:

代码语言:javascript
复制
# 导入 collections 模块的 Iterable 对比对象
from collections import Iterable

通过上面的例子我们总结:常见的字符串、列表、集合、元组、字典都是可迭代对象

下面举例子来说明:

In [18]:

代码语言:javascript
复制
names = ["xiaoming","guanyu","zhangfei"]
numbers = [22,25]

m7 = pd.MultiIndex.from_product(
    [names, numbers],
    names=["name","number"]) # 指定名字
m7

Out[18]:

代码语言:javascript
复制
MultiIndex([('xiaoming', 22),
            ('xiaoming', 25),
            (  'guanyu', 22),
            (  'guanyu', 25),
            ('zhangfei', 22),
            ('zhangfei', 25)],
           names=['name', 'number'])

In [19]:

代码语言:javascript
复制
# 需要展开成列表形式
strings = list("abc")
lists = [1,2]

m8 = pd.MultiIndex.from_product(
	[strings, lists],
	names=["alpha","number"])
m8

Out[19]:

代码语言:javascript
复制
MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           names=['alpha', 'number'])

In [20]:

代码语言:javascript
复制
# 使用元组形式
strings = ("a","b","c")
lists = [1,2]

m9 = pd.MultiIndex.from_product(
	[strings, lists],
	names=["alpha","number"])

m9

Out[20]:

代码语言:javascript
复制
MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           names=['alpha', 'number'])

In [21]:

代码语言:javascript
复制
# 使用range函数
strings = ("a","b","c")  # 3个元素
lists = range(3)  # 0,1,2  3个元素

m10 = pd.MultiIndex.from_product(
	[strings, lists],
	names=["alpha","number"])

m10

Out[21]:

代码语言:javascript
复制
MultiIndex([('a', 0),
            ('a', 1),
            ('a', 2),
            ('b', 0),
            ('b', 1),
            ('b', 2),
            ('c', 0),
            ('c', 1),
            ('c', 2)],
           names=['alpha', 'number'])

In [22]:

代码语言:javascript
复制
# 使用range函数
strings = ("a","b","c")
list1 = range(3)  # 0,1,2
list2 = ["x","y"]

m11 = pd.MultiIndex.from_product(
	[strings, list1, list2],
  names=["name","l1","l2"]
  )
m11  # 总个数 3*3*2=18

总个数是``332=18`个:

Out[22]:

代码语言:javascript
复制
MultiIndex([('a', 0, 'x'),
            ('a', 0, 'y'),
            ('a', 1, 'x'),
            ('a', 1, 'y'),
            ('a', 2, 'x'),
            ('a', 2, 'y'),
            ('b', 0, 'x'),
            ('b', 0, 'y'),
            ('b', 1, 'x'),
            ('b', 1, 'y'),
            ('b', 2, 'x'),
            ('b', 2, 'y'),
            ('c', 0, 'x'),
            ('c', 0, 'y'),
            ('c', 1, 'x'),
            ('c', 1, 'y'),
            ('c', 2, 'x'),
            ('c', 2, 'y')],
           names=['name', 'l1', 'l2'])

pd.MultiIndex.from_frame()

通过现有的DataFrame直接来生成多层索引:

代码语言:javascript
复制
df = pd.DataFrame({"name":["xiaoming","guanyu","zhaoyun"],
                  "age":[23,39,34],
                  "sex":["male","male","female"]})
df

直接生成了多层索引,名字就是现有数据框的列字段:

In [24]:

代码语言:javascript
复制
pd.MultiIndex.from_frame(df)

Out[24]:

代码语言:javascript
复制
MultiIndex([('xiaoming', 23,   'male'),
            (  'guanyu', 39,   'male'),
            ( 'zhaoyun', 34, 'female')],
           names=['name', 'age', 'sex'])

通过names参数来指定名字:

In [25]:

代码语言:javascript
复制
# 可以自定义名字

pd.MultiIndex.from_frame(df,names=["col1","col2","col3"])

Out[25]:

代码语言:javascript
复制
MultiIndex([('xiaoming', 23,   'male'),
            (  'guanyu', 39,   'male'),
            ( 'zhaoyun', 34, 'female')],
           names=['col1', 'col2', 'col3'])

groupby()

通过groupby函数的分组功能计算得到:

In [26]:

代码语言:javascript
复制
df1 = pd.DataFrame({"col1":list("ababbc"),
                   "col2":list("xxyyzz"),
                   "number1":range(90,96),
                   "number2":range(100,106)})
df1

Out[26]:

代码语言:javascript
复制
df2 = df1.groupby(["col1","col2"]).agg({"number1":sum,
                                        "number2":np.mean})
df2

查看数据的索引:

In [28]:

代码语言:javascript
复制
df2.index

Out[28]:

代码语言:javascript
复制
MultiIndex([('a', 'x'),
            ('a', 'y'),
            ('b', 'x'),
            ('b', 'y'),
            ('b', 'z'),
            ('c', 'z')],
           names=['col1', 'col2'])

pivot_table()

通过数据透视功能得到:

In [29]:

代码语言:javascript
复制
df3 = df1.pivot_table(values=["col1","col2"],index=["col1","col2"])
df3

In [30]:

代码语言:javascript
复制
df3.index

Out[30]:

下一篇
举报
领券