使用docxtractr时同时保留源.docx文件名和注释数据

使用docxtractr时，同时保留源.docx文件名和注释数据可以通过以下步骤实现：

首先，docxtractr是一款用于提取和处理Microsoft Word文档的Python库。它能够提取文档内容、元数据和注释数据，并且支持对文档进行修改和生成新的文档。
在使用docxtractr时，可以通过以下代码示例实现同时保留源.docx文件名和注释数据：

import docxtractr

# 读取源.docx文件
doc = docxtractr.Document('source.docx')

# 获取源.docx文件名
file_name = doc.metadata['title']  # 可能需要根据文档元数据字段进行调整

# 提取注释数据
comments = doc.comments

# 打印源.docx文件名和注释数据
print('文件名:', file_name)
print('注释数据:', comments)

在上述代码中，首先使用docxtractr.Document函数读取源.docx文件。然后，通过doc.metadata['title']获取源.docx文件名。需要注意的是，不同文档的文件名元数据字段可能不同，可能需要根据具体情况进行调整。
接下来，使用doc.comments提取源.docx文件中的注释数据。注释数据将以字典的形式返回，其中键为注释的索引编号，值为注释内容。
最后，可以根据需要将文件名和注释数据进行处理，例如存储到数据库、输出到日志文件等。

总结起来，使用docxtractr时同时保留源.docx文件名和注释数据可以通过读取文件元数据获取文件名，并使用doc.comments提取注释数据。关于docxtractr的更多信息和使用方式，可以参考腾讯云提供的官方文档：docxtractr官方文档。请注意，这里提供的是腾讯云的相关产品和产品介绍链接地址，而不是提及其他云计算品牌商。

使用docxtractr时同时保留源.docx文件名和注释数据

我有一个1000行的数据帧(从CSV文件中读入)。每行在一列中有一个.docx path+filename，该文档的元数据在其他列中。我需要从.docx文件中提取注释，然后将源.docx的文件名和元数据附加到每个提取的注释行。最终目标是一个整洁的数据框架。我可以使用以下命令通过'docxtractr‘提取和聚合.<em

浏览 32提问于2019-06-17得票数 1

回答已采纳

1回答

如何将officer::read_docx应用于整个文件夹

、、、、

这包括使用docxtractr提取表，并使用textreadr单独提取正文文本，或者使用officer::docx_summary标记正文和表文本以便于操作。对于这个问题，我使用了officer::read_docx和officer::docx_summary。我使用的测试文档是.docx，并且在包含文本和数字的表格前后包含无意义的文本。= TRUE) docxtest <-

浏览 13提问于2018-02-23得票数 0

回答已采纳

2回答

我正在使用HttpHandler在我的ASP.NET web应用程序中提供文档。我可以让它很好地工作，但有一个问题我不太清楚--文件名不能保留。例如，如果我试图提供一个名为"New Patient Information Form.docx“的文档，而我的处理程序名为"GetDocument.ashx”，则每次我下载该文件时，都会以"GetDocument.docx“和"GetDocument(1).docx”、

浏览 22提问于2018-08-07得票数 0

回答已采纳

1回答

Word文档的Google同步

、

我在Google上有一个共享的shared文档，比如mydoc.docx，并且我正在与其他一些人就这个文档进行合作。有人用Google而不是MS更新了它，文档的名称被更改为mydoc.docx.gdoc，我不能再使用MS在我的计算机上打开和更新它。所以我有两个问题：当有人使用Google更新文件时，文件名是否可能不被更改(没有.gdoc扩展名添加到文件名)，因此我使用Word，她使用Web，我们仍然可以协作？当我们

浏览 0提问于2015-08-12得票数 2

回答已采纳

1回答

Azure数据工厂-数据流活动更改文件名

、、、、

我正在使用Azure data运行数据流活动。源数据源- Azure bolb目标数据源- Azure data Lake Gen 2我想保留我的原始文件名？

浏览 5提问于2020-01-14得票数 0

1回答

使用熊猫列表和python命名和保存docx文件

、、

我使用熊猫从excel工作表中获取员工姓名列表，并希望为单元格中的每个名称创建docx文件作为docx文件名。我有10个名字，我需要自动创建10个docx文件。当前的努力:学会读取名称并创建docx文件。from docx import Documentdf = pandas.read_excel(open('test.xlsx','rb'))document= Document

浏览 3提问于2020-06-19得票数 0

回答已采纳

1回答

如何以正确的格式返回csv中的多个库仑

、、、、

这是我第一次在这里发帖，我刚开始在工作中使用python。我在谷歌上搜索过，麻烦把这个射到了我最大的能力。我试图获取一个文件的用户名和文件名，并删除所有的非utf8字符。在40k左右的文件名记录列表中，混合了utf8、utf16和其他语言编码。sender_email, file_na

浏览 0提问于2018-02-20得票数 0

回答已采纳

2回答

如何在var_dump中使用DOCXTemplate类时修复CodeIgniter中的“未找到文件”

、

我使用来自的DOCXTemplate类来创建docx文档，使用docx模板存储在数据库中的数据。当我尝试使用该类时，我只需将类文件复制到我的视图文件夹中，并创建新的php文件来执行该类，对于类文件中包含的示例，该文件名为download.php。这是我的密码：我尝试在htdocs中创

浏览 1提问于2019-05-13得票数 0

1回答

如何在合并为单个文件之前向多个pcap中的所有数据包添加注释

、、

在捕获之后，我试图将多个pcap合并在一起进行后处理，但是，我需要保留关于每个包的源文件的信息(文件名包含关于网络点击源的信息)。该信息在数据包本身的任何地方都不可用。我的想法是使用pcapng的方便性，它允许将框架注释(frame.comment)添加到包中，并且可以通过编辑帽编程完成。我可以使用它将文件名中的信息添加到将被转发到合并文件中的每个数据包中。然而，似乎社论帽只允许您向特定的框架( editcap -a <fram

浏览 5提问于2020-06-19得票数 0

回答已采纳

1回答

如何使用power bi或Azure Data Factory解压缩.tar.gz文件blob存储

、、、

我需要使用power bi解压在azure blob存储容器中生成的.tar.gz文件。我可以使用power bi解压.zip文件，但它不适用于.tar.gz扩展。有人能在这方面帮我吗？如果ADF可以帮助我，我可以使用它作为媒介，然后在我的Power BI文件中使用它。

浏览 59提问于2021-04-22得票数 0

3回答

使用JavaCC格式化ParseException

、、、

我想知道如何以人类可读的格式格式化由JavaCC抛出的ParseException :事实上，它在异常的标记引用中包括诸如beginLine、beginColumn、endColumn、endLine之类的字段，但不包括对解析的源的引用

浏览 0提问于2009-10-14得票数 1

2回答

、、、、

我正在使用docxtpl和Jinja2生成docx文档。正如手册中解释的那样，我通过使用来自XML文件的数据提供的python矩阵/字典生成了它。当XML文件存储拉丁-1数据时，我的docx可以很好地生成，但是当内容是utf-8编码(如波兰语)时，Jinja2或docxtpl不会保留这种编码，并且docx显然没有很好地格式化。我的过程非常简单： doc = DocxTemplate(<

浏览 13提问于2020-11-12得票数 4

1回答

从SQLite DB值中的路径中删除文件夹

、、、

我有一个SQLite数据库，其中包含URL，例如dbvalue：img/bmo/image1.jpg和img/bmo/image2.gif。然后，我有一个函数，将这些图像的缩略图放在img/thumbs/中，保留原始文件名。然后使用SELECT和foreach来显示数据库中列出的所有图像。并使用<img src="<?现在，我应该如何显示缩略图而不是源图

浏览 0提问于2014-12-17得票数 0

回答已采纳

2回答

如何使用Apache Mod_autoindex使用NameWidth & HTMLTable对目录列表进行样式设计？

、、、、

我正在尝试调整NameWidth，同时使用HTMLTable，但没有成功。文件名不被截断，但最长文件名的右侧距下一列仅差一个字符。我希望使Name列比最长的文件名更宽，因此在右边的下一列中有更多的空白分隔文件名的右侧。I可以通过删除或注释掉"IndexOptions HTMLTable“来实现这一点(水平添加额外的空格)。但是禁用"HTMLTable“会导致图标不再与其关联的文件名垂直居中。是的，我希望保留这些图标

浏览 13提问于2015-06-17得票数 4

回答已采纳

1回答

pandoc生成的markdown文件中非贪婪的regexp匹配过多

、、、

我有一个.docx格式的原始文档，我正在使用--track-changes开关(有关更多信息，请参见 )将其转换为.md，以生成一个标记文件，其中包含用span标记包装的MS word插入/删除/注释，，它有效地“接受”插入和删除，但保留注释跨度。(这是因为当我转换回.docx时，我得到了一个干净的.docx文件，其中只有注释。)我已经能够接受所有插入跨度和删除所有

浏览 3提问于2019-04-16得票数 1

点击加载更多