首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用PyMUPDF从pdf中删除文本

使用PyMUPDF从pdf中删除文本
EN

Stack Overflow用户
提问于 2022-04-27 18:28:58
回答 1查看 814关注 0票数 1

我需要删除使用Python的pdf文档中的文本“草稿”。我可以找到包含文本的文本框,但找不到如何使用pymupdf编辑pdf文本元素的示例。

在下面的示例中,草案对象包含草稿文本元素的和弦和文本。

代码语言:javascript
运行
复制
import fitz

fname = r"original.pdf"
doc = fitz.open(fname)
page = doc.load_page(0)

draft = page.search_for("DRAFT")

# insert code here to delete the DRAFT text or replace it with an empty string

out_fname = r"final.pdf"
doc.save(out_fname)

添加了4/28/2022,我找到了一种删除文本的方法,但不幸的是,它也删除了草稿周围框下的任何重叠文本。我只是想在不修改底层的情况下删除字母草稿

代码语言:javascript
运行
复制
# insert code here to delete the DRAFT text or replace it with an empty string
rl = page.search_for("DRAFT", quads = True)
page.add_redact_annot(rl[0])

page.apply_redactions()
EN

回答 1

Stack Overflow用户

发布于 2022-09-26 08:25:52

你可以试试这个。

代码语言:javascript
运行
复制
import fitz

doc = fitz.open("xxxx")

for page in doc:
    for xref in page.get_contents():
        stream = doc.xref_stream(xref).replace(b'The string to delete', b'')
        doc.update_stream(xref, stream)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72033672

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档