大家好,我是小F~
在之前的办公自动化系列文章中,我已经对Python操作Excel的几个常用库openpyxl
、xlrd/xlwt
、xlwings
、xlsxwriter
等进行了详细的讲解。
为了进一步带大家了解各个库的异同,从而在不同场景下可以灵活使用,本文将横向比较7个可以操作 Excel 文件的常用模块,在比较各模块常用操作的同时进行巩固学习!
首先让我们来整体把握下不同库的特点
“
xlrd
、xlwt
、xlutils
各自的功能都有局限性,但三者互为补充,覆盖了Excel文件尤其是 .xls
文件的操作。xlwt
可以生成 .xls
文件,xlrd
可以读取已经存在的 .xls
文件,xlutils
连接 xlrd
和 xlwt
两个模块,使用户可以同时读写一个 .xls
文件。简单来说,xlrd
负责读、xlwt
负责写、xlutils
负责提供辅助和衔接xlwings
能够非常方便的读写 Excel 文件中的数据,并且能够进行单元格格式的修改XlsxWriter
是一个用来写 .xlsx
文件格式的模块。它可以用来写文本、数字、公式并支持单元格格式化、图片、图表、文档配置、自动过滤等特性。但不能用来读取和修改 Excel 文件openpyxl
通过 工作簿 “workbook - 工作表 sheet - 单元格 cell” 的模式对 .xlsx
文件进行读、写、改,并且可以调整样式pandas
大家都不陌生,是进行数据处理和分析的强大模块,有时也可以用来自动化处理Excel”
如果你懒得看详细的对比过程,可以直接看最后的总结图,然后拉到文末收藏点赞就算学会了
7个模块均为非标准库,因此都需要在命令行中 pip
进行安装:
pip install xlrd
pip install xlwt
pip install xlutils
pip install xlwings
pip install XlsxWriter
pip install openpyxl
pip install pandas
多数模块可以直接通过名字导入,有些模块约定俗称会使用缩写:
import xlrd
import xlwt
import xlwings as xw
import xlsxwriter
import openpyxl
import pandas as pd
xlutils
模块是 xlrd
和 xlwt
之间的桥梁,最核心的作用是拷贝一份通过 xlrd
读取到内存中的 .xls
对象,然后再拷贝对象上通过 xlwt
修改 .xls
表格的内容。xlutils
可以将 xlrd
的 Book 对象复制转换为 xlwt
的Workbook 对象,具体使用时通常导入的是模块中的 copy
子模块:
import xlutils.copy
并不是所有7个模块都可以读取 Excel 文件,而即使能读取Excel文件也要分不同后缀名进行讨论,具体如下:
“
xlwt
、xlutils
、XlsxWriter
不能读取文件xlrd
可以读取 .xls
和 .xlsx
文件xlwings
可以读取 .xls
和 .xlsx
文件openpyxl
可以读取 .xlsx
文件pandas
可以读取 .xls
和 .xlsx
文件”
下面使用两个大小均为 10MB 的 .xls
和 .xlsx
文件进行测试:
xls_path = r'C:\xxx\Desktop\test.xls'
xlsx_path = r'C:\xxx\Desktop\test.xlsx'
xlrd
读取文件xlrd
可以读取 .xls
和 .xlsx
文件
xls = xlrd.open_workbook(xls_path)
xlsx = xlrd.open_workbook(xlsx_path)
xlwings
读取文件xlwings
直接对接的是 apps,也就是 Excel 应用程序,然后才是工作簿 books 和工作表 sheets,xlwings
需要安装有 Excel 应用程序的环境xlwings
可以读取 .xls
和 .xlsx
文件
app = xw.App(visible=True, add_book=False) # 程序可见,只打开不新建工作薄
app.display_alerts = False # 警告关闭
app.screen_updating = False # 屏幕更新关闭
# wb = app.books.open(xls_path)
wb = app.books.open(xlsx_path)
wb.save() # 保存文件
wb.close() # 关闭文件
app.quit() # 关闭程序
openpyxl
读取文件openpyxl
可以读取 .xlsx
文件
wb = openpyxl.load_workbook(xlsx_path)
如果读取 .xls
文件会报错:
wb = openpyxl.load_workbook(xls_path)
openpyxl.utils.exceptions.InvalidFileException: openpyxl does not support the old .xls file format, please use xlrd to read this file, or convert it to the more recent .xlsx file format.
pandas
读取文件pandas
可以读取 .xls
和 .xlsx
文件
xls = pd.read_excel(xls_path, sheet_name='Sheet1')
xlsx = pd.read_excel(xlsx_path, sheet_name='Sheet1')
接下来比较四个模块在同一配置电脑下读取 10MB .xlsx
文件的时间(运行3次求平均值),所用代码为:
import time
import xxx
time_start = time.time()
xxx
time_end = time.time()
print('time cost: ', time_end-time_start, 's')
最后测试的结果是,xlwings
读取 10MB 文件最快,xlrd
次之,openpyxl
最慢(因电脑而异,结果仅供参考)
读入 Excel 文件部分的表格总结如下:
针对上述4个可以读取 Excel 文件的模块,进一步讨论其获取工作表 sheet 的方式
xlrd
获取工作表可以通过 sheet 名查找:
sheet = xlsx.sheet_by_name("Sheet1")
也可通过索引查找:
sheet = xlsx.sheet_by_index(0)
xlwings
获取工作表xlwings
的工作表分为活动工作表以及指定工作簿下的特定工作表:
sheet = xw.sheets.active # 在活动工作簿
sheet = wb.sheets.active # 在特定工作簿
openpyxl
获取工作表.active
方法默认获取工作簿的第一张工作表
sheet = wb.active
另外也可以通过工作表名指定获取工作表:
sheet = wb['Sheet1']
pandas
获取工作表单独获取工作表完全没有 pandas
什么事情,因为读取文件的同时已经且必须指定工作表才能读取:
xlsx = pd.read_excel(xlsx_path, sheet_name='Sheet1')
简单总结创建 Excel 文件的情况:
“
xlrd
、xlutils
不能创建 Excel 文件xlwt
只能创建 .xls
文件,不能创建 .xlsx
文件xlwings
可以创建 .xls
和 .xlsx
文件XlsxWriter
可以创建 .xlsx
文件openpyxl
可以创建 .xls
和 .xlsx
文件pandas
没有创建 Excel 的概念,但可以存储时产生 .xls
或 .xlsx
文件”
xlwt
创建文件xlwt
只能创建 .xls
文件,不能创建 .xlsx
文件
xls = xlwt.Workbook(encoding= 'ascii')
# 创建新的sheet表
worksheet = xls.add_sheet("Sheet1")
xlwings
创建文件xlwings
可以创建 .xls
和 .xlsx
文件,只需要最后保存时写清楚后缀即可。使用如下命令:
wb = app.books.add()
无论是新建还是打开都需要保存工作簿、关闭工作簿、关闭程序,即:
wb.save(path + r'\new_practice.xlsx')
wb.close()
app.quit()
XlsxWriter
创建文件XlsxWriter
可以创建 .xlsx
文件:
xlsx = xlsxwriter.Workbook()
# 添加工作表
sheet = xlsx .add_worksheet('Sheet1')
openpyxl
创建文件openpyxl
可以创建 .xls
和 .xlsx
文件,只需要最后保存时写清楚后缀即可。使用如下命令:
wb = Workbook()
# 新工作簿中指定即创建工作表
sheet = wb.active
pandas
创建文件pandas
只需要最后转存时写清楚后缀即可。实际上比较抽象,pandas
并不需要一开始先创建一个 Excel 文件,可以围绕数据框做各式操作后用 .to_excel
命令再用 .xls
或者 .xlsx
做文件后缀。如果一定要产生一个空白 Excel 文件可以用如下命令:
df = pd.DataFrame([])
df.to_excel(r'C:\xxx\test1.xlsx')
简单总结保存 Excel 文件的情况:
“
xlrd
不能保存 Excel 文件xlwt
可以保存 .xls
文件xlutils
可以将 xlrd
对象复制为 xlwt
对象后保存 .xls
文件xlwings
可以保存 .xls
和 .xlsx
文件XlsxWriter
可以保存 .xlsx
文件openpyxl
可以保存 .xlsx
文件pandas
可以保存 .xls
或 .xlsx
文件”
xlwt
保存文件xlwt
可以保存 .xls
文件
# xls = xlwt.Workbook(encoding= 'ascii')
# worksheet = xls.add_sheet("Sheet1")
xls.save("new_table.xls")
xlutils
保存文件xlutils
可以将 xlrd
对象复制为 xlwt
对象后保存 .xls
文件
# xls_path = r'C:\xxxx\test.xls'
# xls = xlrd.open_workbook(xls_path)
xls_xlutils = xlutils.copy.copy(xls)
xls_xlutils.save('new_text.xls')
xlwings
保存文件xlwings
可以保存 .xls
和 .xlsx
文件
# wb = app.books.open(xls_path)
wb = app.books.open(xlsx_path)
wb.save() # 保存文件
wb.close() # 关闭文件
app.quit() # 关闭程序
XlsxWriter
保存文件XlsxWriter
可以保存 .xlsx
文件,.close
命令执行后文件关闭的同时保存:
# xlsx = xlsxwriter.Workbook()
# sheet = xlsx .add_worksheet('Sheet1')
xlsx.close()
openoyxl
保存文件openpyxl
可以保存 .xlsx
文件
# wb = openpyxl.load_workbook(xlsx_path)
# wb = Workbook()
# sheet = wb.active
wb.save('new_test.xlsx')
pandas
保存文件pandas
可以保存 .xls
或 .xlsx
文件
df1 = pd.DataFrame([1, 2, 3])
df2 = pd.DataFrame([1, 2, 4])
df1.to_excel(r'C:\xxxx\test1.xls')
df2.to_excel(r'C:\xxxx\test2.xlsx')
获取单元格的值基本前提是能够读取文件,因此基本围绕 xlrd
、xlwings
、openpyxl
、pandas
介绍。xlutils
由于能够复制一份 .xls
因此也可以使用和 xlrd
完全一样的读取单元格方法。
xlrd
/xlutils
获取单元格xlutils
因为是直接拷贝一份 xlrd
适用的对象,读取单元格使用的方法和 xlrd
完全一样。xlwt
没有读取单元格的能力
# xls = xlrd.open_workbook(xls_path)
# sheet = xlsx.sheet_by_name("Sheet1")
value = sheet.cell_value(4, 6) # 第5行第7列的单元格
print(value)
rows = table.row_values(4)
cols = table.col_values(6)
for cell in rows:
print(cell)
xlwings
获取单元格# app = xw.App(visible=True, add_book=False)
# app.display_alerts = False
# app.screen_updating = False
# wb = app.books.open(xls_path)
# sheet = wb.sheets.active
# 获取单个单元格的值
A1 = sheet.range('A1').value
print(A1)
# 获取横向或纵向多个单元格的值,返回列表
A1_A3 = sheet.range('A1:A3').value
print(A1_A3)
# 获取给定范围内多个单元格的值,返回嵌套列表,按行为列表
A1_C4 = sheet.range('A1:C4').value
print(A1_C4)
# 获取单个单元格的值
A1 = sheet.range('A1').value
print(A1)
# 获取横向或纵向多个单元格的值,返回列表
A1_A3 = sheet.range('A1:A3').value
print(A1_A3)
# 获取给定范围内多个单元格的值,返回嵌套列表,按行为列表
A1_C4 = sheet.range('A1:C4').value
print(A1_C4)
openpyxl
获取单元格# wb = openpyxl.load_workbook(xlsx_path)
# wb = Workbook()
# sheet = wb.active
# 一、指定坐标范围的值
cells = sheet['A1:B5']
# 二、指定列的值
cells = sheet['A']
cells = sheet['A:C']
# 三、指定行的值
cells = sheet[5]
cells = sheet[5:7]
# 获取单元格的值
for cell in cells:
print(cell.value)
pandas
获取单元格的值pandas
读取 Excel 文件后即将它转换为数据框对象,解析内容的方法基本是 pandas
体系中的知识点,如 .iloc()
.loc()
.ix()
等:
print(df1.iloc[0:1, [1]])
print(df1.loc['b'])
print(df2.ix['a', 'a']) # 有些版本取消了ix,可以用iat
还是先简单总结对 Excel 文件写入数据的情况:
“
xlrd
不能写入数据xlwt
可以写入数据xlutils
可以借用 xlwt
方法写入数据xlwings
可以写入数据XlsxWriter
可以写入数据openpyxl
可以写入数据pandas
将 Excel 文件读取为数据框后,是抽象出数据框层面进行操作,没有了对 Excel 进行单元格写入和修改的概念”
xlwt
/xlutils
写入数据# xls = xlrd.open_workbook(xls_path)
# xls_xlutils = xlutils.copy.copy(xls)
# sheet = xls_xlutils.sheet_by_name("Sheet1")
# value = sheet.cell_value(4, 6)
# print(value)
sheet.write(4, 6, "新内容")
xlwings
写入数据# app = xw.App(visible=True, add_book=False)
# app.display_alerts = False
# app.screen_updating = False
# wb = app.books.open(xls_path)
# sheet = wb.sheets.active
# 写入 1 个单元格
sheet.range('A2').value = '大明'
# 一行或一列写入多个单元格
# 横向写入A1:C1
sheet.range('A1').value = [1,2,3]
# 纵向写入A1:A3
sheet.range('A1').options(transpose=True).value = [1,2,3]
# 写入范围内多个单元格
sheet.range('A1').options(expand='table').value = [[1,2,3], [4,5,6]]
XlsxWriter
写入数据代码中的 new_format
是之前预设好的样式,下文会进行介绍
# xlsx = xlsxwriter.Workbook()
# sheet = xlsx .add_worksheet('Sheet1')
# 一、写入单个单元格
sheet.write(row, col, data, new_format)
# A1:从A1单元格开始插入数据,按行插入
sheet.write_row('A1', data, new_format)
# A1:从A1单元格开始插入数据,按列插入
sheet.write_column('A1', data, new_format)
openpyxl
写入数据# wb = openpyxl.load_workbook(xlsx_path)
# wb = Workbook()
# sheet = wb.active
# 一、写入单元格
cell = sheet['A1']
cell.value = '业务需求'
# 二、写入一行或多行数据
data1 = [1, 2, 3]
sheet.append(data1)
data2 = [[1, 2, 3], [4, 5, 6]]
sheet.append(data2)
依旧简单总结对 Excel 文件样式调整的情况:
“
xlrd
、xlutils
不能调整样式 (也可以说 xlutils
可以,只不过是借用了 xlwt
的方法)xlwt
可以调整样式xlwings
可以调整样式XlsxWriter
可以调整样式openpyxl
可以调整样式pandas
不能调整样式”
xlwt
调整样式xlwt
支持调整字体、边框、颜色等样式
# 字体部分
# 初始化样式
style1 = xlwt.XFStyle()
# 为样式创建字体
font = xlwt.Font()
font.name = 'Times New Roman' #字体
font.bold = True #加粗
font.underline = True #下划线
font.italic = True #斜体
# 设置样式
style1.font = font
# 使用样式
sheet.write(4, 6, "新内容1", style1)
# 边框部分
borders = xlwt.Borders()
# 设置线型
borders.left = xlwt.Borders.DASHED
borders.right = xlwt.Borders.DASHED
borders.top = xlwt.Borders.DASHED
borders.bottom = xlwt.Borders.DASHED
# 设置样色
borders.left_colour = 0x40
borders.right_colour = 0x40
borders.top_colour = 0x40
borders.bottom_colour = 0x40
#
style2 = xlwt.XFStyle()
style2.borders = borders
# 使用样式
sheet.write(5, 8, "新内容2", style2)
xlwings
调整样式简单介绍 xlwings
对颜色的调整:
# 获取颜色
print(sheet.range('C1').color)
# 设置颜色
sheet.range('C1').color = (255, 0, 120)
# 清除颜色
sheet.range('C1').color = None
XlsxWriter
包含大量功能,可以创建工作表后对工作表进行高定自定义的样式修改:
new_format = xlsx.add_format({
'bold': True, # 字体加粗
'border': 1, # 单元格边框宽度
'align': 'left', # 水平对齐方式
'valign': 'vcenter', # 垂直对齐方式
'fg_color': '#F4B084', # 单元格背景颜色
'text_wrap': True # 是否自动换行
})
sheet.write(row, col, data, new_format)
openpyxl
样式主要包括字体、边框、段落对齐样式等
# 字体样式
from openpyxl.styles import Font
cell = sheet['A1']
font = Font(name='Arial', size=12, bold=True, italic=True, color='FF0000')
cell.font = font
# 段落对齐
from openpyxl.styles import Alignment
cell = sheet['B2']
alignment = Alignment(horizontal='center', vertical='center', text_rotation=45, wrap_text=True)
cell.alignment = alignment
# 边框样式
from openpyxl.styles import Side, Border
cell = sheet['B2']
side1 = Side(style='thin', color='FF0000')
side2 = Side(style='dashed')
border = Border(left=side1, right=side1, top=side2, bottom=side2)
cell.border = border
简单总结对 Excel 文件插入图片的情况:
“
xlrd
、xlutils
不能调整样式 (也可以说 xlutils
可以,只不过是借用了 xlwt
的方法)xlwt
可以插入 .bmp
图片xlwings
可以插入 图片XlsxWriter
可以插入图片openpyxl
可以插入图片pandas
不能插入图片”
xlwt
插入图片xlwt
插入图片要求图片格式必须是 .bmp
格式才能插入成功
sheet.insert_bitmap("test.bmp", 2, 3, 2, 2, 0.5, 0.5)
insert_bitmap(img, x, y, x1, y1, scale_x, scale_y)img
表示要插入的图像地址,x
表示行,y
表示列x1 y1
表示相对原来位置向下向右偏移的像素scale_x scale_y
表示相对原图宽高的比例,图片可放大缩小
xlwings
插入图片下面是用xlwings
插入图片的代码,可以指定位置
sheet.pictures.add(r'C:\\xxx.jpg')
# 也可以给定位置插入
sheet.pictures.add(r'C:\\xxx.jpg', left=sheet.range('A2').left, top=sheet.range('A2').top, width=100, height=100)
第一个参数是插入的起始单元格,第二个参数是图片文件的绝对路径
sheet.insert_image('A1', r'C:\\xxx.jpg')
openpyxl
也可以给Excel中插入指定图片并修改大小
from openpyxl.drawing.image import Image
img = Image('test.jpg')
newsize = (180, 360)
img.width, img.height = newsize # 设置图片的宽和高
sheet.add_image(img, 'A2') # 往A2单元格插入图片
以上就是根据不同 Python 模块,对常见的 Excel 操作进行对比的全部内容,最终结果汇总如下表所示
请注意,本文目的并不是要评出一个最好的库,仅是从不同角度对不同库进行对比,希望能够让大家了解各个库所擅长的工作。比如pandas
虽然处理方便,但是不能添加图片修改样式,openpyxl
虽然各种操作都支持,但是速度又相对慢一点等。
只有充分了解不同工具的特点,才能够在不同的场景下灵活运用不同的方法来高效解决问题!