前面我们介绍了xlrd、xlwt与openpyxl等第三方库操作Excel文件,但是这些第三方库依旧不够高效,无法替代Excel在数据处理方面的诸多功能,而Pandas这个第三方库可以完美解决上面提到的所有问题。
Pandas是Python中分析结构化数据的工具集,它基于NumPy(提供高性能矩阵运算的第三方库),拥有数据挖掘、数据分析和数据清洗等功能,广泛应用于金融、经济、统计等不同领域。
Pandas在操作Excel时,依赖于xlrd与xlwt,所以想要使用Pandas操作Excel,除安装Pandas外,还需要安装xlrd与xlwt。
Pandas的两个重要概念
要理解Pandas,就必须先理解Series和DataFrame
Series是一种类似于一维数组的对象,它由一组数据,以及一组与之相关的数据标签(索引)组成,表格中的中每一列、每一行都是Series对象。
DataFrame是Pandas中的一个表格型的数据结构,由一组有序的列构成,其中每一列都可以是不同的值类型。DataFrame既有行索引也有列索引,可以看作是由Series组成的字典。
DataFrame本身就是一种二维数据结构,其行与列都是Series,多个Series可以组成一个DataFrame。下图就是Series和DataFrame的关系。
使用Pandas读取Excel数据
import pandas as pd
# 读取Excel文件Sheet1工作表
data = pd.read_excel('file.xlsx',sheet_name='Sheet1')
print(data)
# 一些比较常用的读取方法
# 1.从第N行开始读取,使用header参数
data = pd.read_excel('file.xlsx',header=2,sheet_name='Sheet1')
# 2.使用dtype指定对应列的数据类型
data = pd.read_excel('file.xlsx',dtype={'name':str,'age':str})
这样就可以把sheet1表格中的数据全部读取出来了,而且效率很高。
使用Pandas保存数据到Excel文件
import pandas as pd
df = pd.DataFrame({
'id':[1,2,3],
'name':['hello','python','talkpython']
})
df = df.set_index('id')
df.to_excel('new_file.xlsx')
上述代码我们通过to_excel方法将DataFrame对象保存为Excel文件。以上就是今天要分享的内容,下次分享一些更加复杂的操作。