前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

作者头像
Python小屋屋主
发布2020-09-23 14:24:29
1.7K0
发布2020-09-23 14:24:29
举报
文章被收录于专栏:Python小屋Python小屋

问题描述:

WPS和Office Word创建的docx格式文档虽然格式大致相同,但还是有些细节的区别。例如,使用WPS创建的文档中如果包含超链接,可以使用“Python提取Word文档中所有超链接地址和文本”一文中介绍的技术和代码提取,但是同样的代码对于Office Word创建的docx文档无效。本文使用Python配合正则表达式来提取docx文档中的超链接文本和链接地址。

技术原理:

假设有文件“带超链接的文档(Word版).docx”,内容如下,

把该文件复制一份得到“带超链接的文档(Word版) - 副本.docx”,修改扩展名为zip得到文件“带超链接的文档(Word版) - 副本.zip”,打开该文件,结构如下,

进入word子文件夹,结构如下,

双击文件document.xml,内容如下,方框内和箭头处是需要提取的内容,其中箭头处为资源ID,

进入_rels文件夹,有如下文件,

双击打开文件“document.xml.rels,内容如下,红线处类似的地方是需要提取的信息,

参考代码:

运行结果:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档