Pandas库的基础使用系列---DataFrame练习

原创

IT蜗壳-Tango

发布于 2023-12-13 22:20:44

62600

代码可运行

文章被收录于专栏：Pandas基础实践Pandas基础实践

运行总次数：0

代码可运行

前言

我们前几篇文章和大家介绍了如何读取Excel,以及如何获取行数据，列数据，以及具体单元格数据。像我们目前只读取了一个Excel表中的一个sheet的数据，这个sheet的数据通常我们在pandas中称其为DataFrame，它可以包含一组有序的列(Series), 而每个Series可以有不同的数据类型，这个等我们后面再详细说，今天和一起针对DataFrame一起做几个小练习。DataFrame后面我们简称为df。

自定义默认索引

我们之前注意到读取excel数据后，pandas会自动为我们添加一列它是从0开始的一个index，我们试着将它修改为汉字的表现，即零，一，二，三，四这样的。

修改前的代码

import pandas as pd
df = pd.read_excel("../data/年度数据.xls")
total_rows = df.shape[0]
skip_rows = [0, 1, total_rows]
df = pd.read_excel("../data/年度数据.xls", skiprows=skip_rows)

修改后的代码

df = pd.read_excel("../data/年度数据.xls")
total_rows = df.shape[0]
skip_rows = [0, 1, total_rows]
df = pd.read_excel("../data/年度数据.xls", skiprows=skip_rows)
df.index = ["零","一","二","三","四","五","六","七","八","九","十"]

运行效果如下：

可以看到已经变化了，我们主要是通过以下代码实现的，你也可以试试其他的，比如从A开始。

df.index = ["零","一","二","三","四","五","六","七","八","九","十"]

我们试试用一个连续的日期作为索引

df = pd.read_excel("../data/年度数据.xls")
total_rows = df.shape[0]
skip_rows = [0, 1, total_rows]
df = pd.read_excel("../data/年度数据.xls", skiprows=skip_rows)
df.index = pd.date_range("20231213", periods=11)

主要代码为

df.index = pd.date_range("20231213", periods=11)

这里我们使用date_range这个方法创建了一个从20231213开始连续11天的列表，然后将它赋值给df.index

使用月份作为索引

  df = pd.read_excel("../data/年度数据.xls")
  total_rows = df.shape[0]
  skip_rows = [0, 1, total_rows]
  df = pd.read_excel("../data/年度数据.xls", skiprows=skip_rows)
  df.index = pd.period_range(start='2023-01', end='2023-11', freq='M')

主要代码为

df.index = pd.period_range(start='2023-01', end='2023-11', freq='M')

这里使用period_range这个方法，并指定了开始和结束的月份，同时指定了使用月份。

修改df的列名

我们看到目前df的列名里面都一个年，比如2022年，我们可以将年去掉，或者将20去掉

主要代码

df.columns = df.columns.str.strip("年")

如果想将20去掉该怎么办呢，如果只是单纯的把年换成20，你得到的结果会很奇怪

正确的做法是，通过rename和lambda结合进行修改，代码如下

df = pd.read_excel("../data/年度数据.xls")
total_rows = df.shape[0]
skip_rows = [0, 1, total_rows]
df = pd.read_excel("../data/年度数据.xls", skiprows=skip_rows, index_col=0)
df.rename(columns=lambda x: x[2:])

效果如下