Python提取docx文档中所有嵌入式图片和浮动图片

术语:

浮动图片,是指在Word文档中位置可以自由移动、可以环绕文字或放置于文字上方、下方的图片,不占文档流的位置,可以和文字或嵌入式图片重叠。

嵌入式图片或行内图片,和文档中的文字一样占文档流的位置,不能自由移动位置,也不能环绕文字,不能放置于文字的上方或下方。直接插入Word文档的图片默认为嵌入式图片,如果改为浮动图片,需要单独设置。

==============

首先,我们准备一个文件“包含图片的文档.docx”,里面放几个图片,设置其中几个图片浮动,分别位于文字下方和文字上方,再写几个字,如图:

然后使用扩展库python-docx提取其中的图片,目前这个库似乎只支持嵌入式图片的提取,不支持浮动图片,有知道的朋友请留言告知,测试成功后可以获赠董老师任意图书一本。

参考代码:使用Python批量提取并保存docx文档中的图片

提取结果:

改用扩展库docx2python,官方对这个扩展库的简单描述如下:

首先使用pip命令安装这个扩展库,如图:

参考代码:

提取结果:

除了提取图片之外,obj还具有下面的属性可以提取docx文档中不同部分,请自行查阅资料了解其用法。

本文分享自微信公众号 - Python小屋(Python_xiaowu)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张俊红

不到70行Python代码,轻松玩转RFM用户分析模型(附案例数据和代码)

本文从RFM模型概念入手,结合实际案例,详解Python实现模型的每一步操作,并提供案例同款源数据,以供同学们知行合一。

10730
来自专栏微卡智享

分享|C# 中yield关键字解析

  前段时间了解到yield关键字,一直觉得还不错。今天给大家分享一下yield关键字的用法。yield return 返回集合不是一次性返回所有集合元素,而是...

5510
来自专栏未闻Code

为什么你应该学习 Python 的生成器?

写过一段时间代码的同学,应该对这一句话深有体会:程序的时间利用率和空间利用率往往是矛盾的,可以用时间换空间,可以用空间换时间,但很难同时提高一个程序的时间利用率...

7120
来自专栏未闻Code

使用 yield 压平嵌套字典有多简单?

你肯定想到了使用递归来解决这个问题,那么你可以试一试,看看你的递归函数有多少行代码。

9270
来自专栏机器学习与统计学

NVIDIA工程师小姐姐的Python隐藏技巧合集,推特2400赞,代码可以直接跑

常常发资源的英伟达工程师小姐姐Chip Huyen,又发射了一套Python隐藏功能合集。

10850
来自专栏机器学习与统计学

干货 | 27 个问题,告诉你 Python 为什么如此设计?

https://docs.python.org/zh-cn/3.7/faq/design.html

5810
来自专栏极客猴

不给糖果就捣乱,用Python绘制有趣的万圣节南瓜怪

最近由于工作比较忙,所以会转载一些大佬们的优秀文章。今天有些时间,想着写点什么呢?快到万圣节了既然秉承着寓教于乐的python学习态度,不如就用Python画一...

6920
来自专栏未闻Code

使用 yield 压平多层嵌套字典列表混合数据

在上一篇文章里面,我们讲到了如何使用Python的yield关键字简化代码,压平多层嵌套字典的。

9820
来自专栏程序员的成长之路

Java 会走向晦暗吗? Kotlin 会取而代之吗

Stackoverflows上的趋势图显示Java从2015年以后走下坡路,而Kotlin开始上升。该图形中的Java趋势不断下降,Java很容易失去其作为一种...

7910
来自专栏小程序云开发入门

小程序云开发模糊查询,实现数据库多字段的模糊搜索

上图只可以实现time字段的模糊搜索。但是我们如果相对数据表里的多个字段做模糊查询呢?该怎么办呢。

17200

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励