首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用python-docx模块读写word文件

欢迎关注”生信修炼手册”!

word文档的自动化处理是一件比较头痛的事情,因为深耕于windows操作系统,对于跨平台需求的word文档编辑,是非常痛苦的一件事。在python的生态环境中,提供了python-docx这个模块,可以方便的进行跨平台的word文档处理,但是只适合word 2007以后的文档,即后缀为docx的文档。

处理excel文件,需要先创建一个workbook,与之对应,处理word文档,首先需要创建Document对象,用法如下

Document用于表征一个具体的word文档,在此基础上,包含了常见的各种元素,常用的几个元素列表如下

1.heading

2.paragraph

3.page break

4.table

5.picture

1. heading

heading表示标题,通过add_heading方法,可以添加标题,用法如下

我们编辑word文档的时候,可以有多种不同等级的标题,在该模块中,通过level参数可以指定不同的等级,取值范围为0-9,用法如下

2. paragraph

paragraph表示段落,通过add_paragraph方法添加段落,用法如下

在段落的基础上,可以通过add_run来不断进行拼接,用法如下

add_run的用处在于针对部分文字,单独进行处理,比如设置其字体大小,颜色等,用法如下

3. page break

page break表示分页,通过add_page_break方法进行添加,用法如下

4. table

table表示表格,通过add_table函数进行添加,用法如下

创建表格之后,我们需要对单元格进行赋值, 有以下两种方法

对于一个table, 可以通过如下方式进行遍历

5, picture

picture表示图片,通过add_picture函数进行添加,用法如下

对于word文档而言,除了基本元素之外,还有一个重大元素就是样式。对于字体的大小,颜色,间隔等等各种样式进行设置,从而呈现出一个美观的排版效果,这是word和普通的文本编辑器最大的不同之处。

在python-docx模块中,内置了可以用于段落,表格,文字的各种style, 详细列表见如下链接

https://python-docx.readthedocs.io/en/latest/user/styles-understanding.html

style具有name, type等属性,通过如下方式可以访问具体的style

以段落为例,应用style的用法如下

style是针对特定元素排版的一整套规则,包含了很多的样式,对于单个属性的设置,通过style就太厚重了,此时可以使用特定的属性来设置。

python-docx将常用的一些属性设置成了内置的常量,保存在docx.enum模块中,比如设置段落对齐方式为居中对齐,用法如下

完整的内置常量可以参考官方的API文档,对word文档编辑之后,可以如下方式另存为新的文档

python-docx提供了一种跨平台的word自动化处理功能,对于简单排版的word处理,非常的好用。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201124A0FTGP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券