首页
学习
活动
专区
工具
TVP
发布

Python小屋

专栏作者
961
文章
1631368
阅读量
146
订阅数
Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址
WPS和Office Word创建的docx格式文档虽然格式大致相同,但还是有些细节的区别。例如,使用WPS创建的文档中如果包含超链接,可以使用“Python提取Word文档中所有超链接地址和文本”一文中介绍的技术和代码提取,但是同样的代码对于Office Word创建的docx文档无效。本文使用Python配合正则表达式来提取docx文档中的超链接文本和链接地址。
Python小屋屋主
2020-09-23
1.6K0
Python提取docx文档中嵌入式图片和浮动图片的又一种方法
昨天推送了使用docx2python扩展库提取文档中图片的文章之后,经网友perfect提醒,实际上使用python-docx这个扩展库也可以提取浮动图片,并给出了参考代码。经过分析和测试,确实可以,然后根据分析我把perfect朋友给出的代码又简化改进了一下,思路如下:
Python小屋屋主
2019-11-28
2.5K0
Python爬虫扩展库BeautifulSoup4用法精要
BeautifulSoup是一个非常优秀的Python扩展库,可以用来从HTML或XML文件中提取我们感兴趣的数据,并且允许指定使用不同的解析器。由于beautifulsoup3已经不再继续维护,因此新的项目中应使用beautifulsoup4,目前最新版本是4.5.0,可以使用pip install beautifulsoup4直接进行安装,安装之后应使用from bs4 import BeautifulSoup导入并使用。下面我们就一起来简单看一下BeautifulSoup4的强大功能,更加详细完整的学
Python小屋屋主
2018-04-16
7110
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档