将DOCX中的内容提取为Python代码

文章/答案/技术大牛

发布

1回答

python、excel、python-3.x、docx

我一直在学习如何使用Python创建DOCX文件。但是，我有一个文档，我想使用python自动执行常规编辑。需要根据在excel电子表格中找到的术语进行编辑(删除或添加)。我的文档大约有25页，有不同的格式、表格、段落、标题和一些图像。有没有办法将所有这些内容提取到python代码中，然后我可以根据excel电子表格添加关于在docx文件中打印或

浏览 21提问于2019-07-10得票数 0

1回答

不使用指定字体/编码的fpdf中的write_html()方法

html、python-3.6、fpdf

我正在使用docx2python创建一个包含大量引号的PDF格式，并使用html=True将这些引号导入到python中，这样它们就有了一些标记。/斜体标记呈现为PDF为文本。.我并不是真的想改变字体，但是要确保写在PDF上的内容保留了特殊的字符，而不是mojibake。但是理想的情况是，在每个引号的开头会有一些其他html标记，或者一种改变.write_html()方法

浏览 8提问于2020-06-12得票数 1

1回答

使用python显示docx文件的内容

python、python-3.x

我正在读取docx文件并显示其数据。import docxpy file2 = 'xyz.docx' message1 =

浏览 2提问于2019-09-23得票数 1

2回答

是否有一种方法可以将内联形状从docx中保存为图像文件？

python、image、docx、shapes

我试图使用python解析docx文件。该文件包含图像和文本。基本上，我需要一种从文件中获取图像( InlineShape对象)的方法，并将其保存为单独的图像(如"smth.jpg")。有办法吗？

浏览 1提问于2019-07-11得票数 0

回答已采纳

1回答

在中将docx文件呈现为django模板

python、django、google-app-engine、ms-word、django-templates

我试图用Django模板呈现存储在google驱动器中的word文档文件(docx)的内容。word文档文件(docx)是包含django变量的模板。将文件转换为google格式将使docx文件释放其字体和样式格式，因此我正在尝试在google应用程序引擎中实现以下步骤将下载的文件传递到<e

浏览 4提问于2014-10-18得票数 0

1回答

如何解析简历数据？

python-3.x、spyder

我已经应用了这段代码来使用python从简历中提取数据，但是我的代码没有工作。我的目标是解析简历或从简历中提取数据，然后应用算法对标签进行预测。我的目标是在python中“根据技能和简历内容对候选人简历进行排序”。pip install docx pip install pyresp

浏览 10提问于2022-03-18得票数 0

5回答

使用python从MS word docx文件中逐页提取文本

python、python-3.x、document、extraction、text-extraction

我有一个MS文件，我需要从其中提取文本分页。我尝试过python，但它可以提取整个文本，但不能提取页面。我还将docx转换为pdf，然后尝试文本提取。问题是，在转换之后，docx的页面结构发生了变化。例如，在转换时，字体大小被更改，而docx的一页中的文本内容在pdf中占用了多个页面。我正在寻找一个稳定的解决方案，可以从<em

浏览 9提问于2019-12-18得票数 4

回答已采纳

1回答

解析HTML文件，并将标题<h1>和副标题<h2>以及它们下面包含的文本存储在其他文件目录中(Python)

python、pandas、beautifulsoup、html-parsing、python-docx

所以我有一个很长的HTML页面。我实际上将我的.docx文档转换为超文本标记语言，因为我希望所有的标题和副标题都存储在单独的文件中，因为稍后我想要重现相同的文件(但删除一些内容)，所以我的想法是，我将解析一次超文本标记语言，并存储它的所有标题和子标题一次，根据需要，我将只获取需要的那些。some text some text 2.3 Test Architectur

浏览 4提问于2020-05-28得票数 0

2回答

解析docx文件的好库是什么？

python、javascript、node.js、document-converter

有什么好的库可以帮助以串行方式解析.docx文件吗？我正在寻找一个库，它允许我以以下方式解析docx文件：parsed = library.parse(d, output="json") "marginRight":1,

浏览 0提问于2021-06-12得票数 1

1回答

编辑Word文档，添加页眉/页脚并保存它- Python

python-2.7、ms-word、docx

我想要向word文档的每一页添加页眉和页脚，并想要在文档的开头添加一些页面，如何使用python实现此目的？我尝试过python-docx，但它不能像我预期的那样工作。有没有其他方法可以满足我的要求？

浏览 1提问于2013-07-22得票数 0

1回答

如何将XML内容从xml.etree.ElementTree写入文件？

xml、python-3.x

我在用python 3.5import zipfilewith zipfile.ZipFile('<path to docx file>') as docx: tree = xm

浏览 2提问于2017-09-06得票数 1

回答已采纳

2回答

字到文字:：编号符号被删除

python、python-3.5

我有一个.docx文件，其中有编号的子弹。一个例子是：2.1 random text我的代码：import docx2txtpath = ("my_file.docx") 我得到的text值如下：Sub Topic

浏览 0提问于2019-04-15得票数 0

1回答

Python:如何写入.docx并合并格式？

python、python-docx

我有一些代码可以将内容写入.docx文件中的表格中的单元格。表格已具有预设格式(例如，16号Arial字体、右对齐等)。但是，当python写入表时，格式会恢复为word的默认格式(大小是新罗马字符的12倍，左对齐)。示例代码： doc = Document('table.d

浏览 1提问于2017-10-10得票数 0

3回答

在python中从DOCX* Word文档中提取表格*

python、xpath、ms-word、docx

我正在尝试提取DOCX Word文档中表格的内容，天哪，我对xml/xpath是个新手。from docx import *tableList = document.xpath('/w:tbl') 这会触发"XPathEvalError:未定义的命名空间前缀“错误。我确信这只是开发脚本时的第一个期望。不幸<e

浏览 3提问于2011-08-18得票数 5

回答已采纳

4回答

如何使用python从docx文件中提取超链接中的url

python、python-docx

我一直试图找出如何使用python从docx文件中获取urls，但什么也找不到，我尝试过python-docx和python-docx2txt，但python-docx似乎只提取文本，而python-docx2txt能够从超链接中提取文本，而不是urls本身。

浏览 3提问于2016-11-08得票数 3

2回答

解压缩到同一个目录，从使用Pandoc转换的不同.docx文件中提取媒体

linux、bash、shell、pandoc

目标我正在使用pandoc将一些.docx转换为.md。这些.docx的图像在转换后被放置在一个目录(markdown-.docx/media/)中，并且它的URL在结果的.md文件中被引用。因此，目标是使生成的.md文件具有指向标记存储库/media/中存储的适当图像的链接。要做到这一点，所有标记存储库/媒体/下<em

浏览 2提问于2020-03-17得票数 2

2回答

数据争一大组docx文件的建议！

python、similar-documents、data-wrangling

本质上，我有一组(200+)半结构化的docx文件。半结构化的意思是我想要的信息被组织成表格(它是一种表格，包含不同的信息来填写)，但不幸的是，这些表格的格式并不一致。有时，当人们在数据中输入数据后，他们会意外地撞到后置空间，将表格粘在一起。或者，有时他们会不小心把桌子拆开，例如。我第一次尝试使用python来提取数据，使用document.tables、0等。然后，我可以将它拉到每个文档

浏览 0提问于2019-06-29得票数 4

1回答

理解docx文件中的书签

python、xml、openxml、docx、python-docx

我试图从Docx文件中提取书签，我编写了一段代码，它在一些Docx文件中提取书签，但是它在一些docx文件中找不到任何书签。我正在使用python-docx。我基本上是找到w:bookmarkStart标记，然后转到它的父标记并检索段落中的所有运行。但是有些文档既没有w:bookmarkStart，也没有超链接标签，但是Docx查看器能够识别书签。以下是段落<em

浏览 0提问于2019-08-29得票数 1

10回答

在python3.3中导入docx时出现错误ImportError:没有名为'exceptions‘的模块

python、python-3.x、python-docx

导入docx时出现以下错误： from exceptions import PendingDe

浏览 3提问于2014-03-31得票数 120

点击加载更多