前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python读取docx文件,就是如此简单

python读取docx文件,就是如此简单

作者头像
IT苦逼一枚
发布2020-05-13 14:09:53
1.9K0
发布2020-05-13 14:09:53
举报
文章被收录于专栏:测试帮日记测试帮日记

中文编码问题总是让人头疼(尤其是mac本),想要用Python读取word中的内容。用open()经常报错,通过百度搜索+问身边小伙伴发现了Python有专门读取.docx的模块python_docx。本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步!

01:问题抛出与引入
代码语言:javascript
复制
import docxpath = "C:\\Users\\qin\\Desktop\\1.docx"
file_object=open(path,'rb')
print(file_object.read())
#输出结果如下所示:
b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00!\x00J\xbc\x02qm\x01\x00\x00
(\x06\x00\x00\x13\x00\x08\x02[Content_Types].xml \xa2\x04\x02(\xa0\.....

一个很简单的docx文件,打印出来的结果却不是我们想要的。对此引入一个十分好用的docx模块,下面就详细介绍该模块的一些基本操作。

02:安装docx模块
pip install python_docx

03:新建文档对象
代码语言:javascript
复制
import docxfrom docx import Document
# 新建文档,并将其保存名为“test.docx”的文件
document = Document()
document.save('test.docx')

04:添加文档内容

代码语言:javascript
复制
import docxfrom docx import Document
from docx.shared import Inches
document = Document('C:\\Users\\qin\\Desktop\\1.docx')
document.add_heading('I like python', 0)#插入标题:0表示样式为title标题
document.add_heading('一级标题', level=1)#插入1级标题
p = document.add_paragraph('Python是一种计算机程序设计语言 ')#插入段落
document.add_picture('C:\\Users\\qin\\Desktop\\1.png', width=Inches(1.25)) #添加图片并指定宽度
table = document.add_table(rows=1, cols=3)  #添加一个表格,每行三列
hdr_cells = table.rows[0].cells  #获取第一行的单元格列表对象
hdr_cells[0].text = 'ID'    #为每一个单元格赋值
hdr_cells[1].text = 'Name'
hdr_cells[2].text = 'Age'
new_cells = table.add_row().cells #为表格添加一行
new_cells[0].text = '1'
new_cells[1].text = 'Tom'
new_cells[2].text = '15'
document.add_page_break()   #添加分页符

05:保存文档内容

名字相同则将修改的文件内容保存;名字不同则将修改的文件内容另存为

代码语言:javascript
复制
import docx
from docx import Document
document.save('C:\\Users\\qin\\Desktop\\1.docx')#保存
document.save('C:\\Users\\qin\\Desktop\\2.docx')#另存为

06:读取文本内容

代码语言:javascript
复制
import docxfrom docx import Document
path = "C:\\Users\\qin\\Desktop\\1.docx"
document = Document(path)
for paragraph in document.paragraphs:
    print(paragraph.text)
07:读取表格内容

想要知道docx模块更多资料参考:https://python-docx.readthedocs.io/en/latest/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 测试帮日记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01:问题抛出与引入
  • 02:安装docx模块
  • pip install python_docx
  • 03:新建文档对象
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档