问如何丢弃PDF中的裁剪文本
EN

Stack Overflow用户

提问于 2019-04-22 05:17:09

回答 1查看 817关注 0票数 1

我需要裁剪一个pdf以提取该pdf文档中的一些特定信息。有没有办法裁剪pdf并只保留裁剪区域内的文本，而丢弃裁剪区域外的所有其他文本？

我尝试使用以下代码使用pyPdf对其进行裁剪。

from pyPdf import PdfFileWriter, PdfFileReader

with open("in.pdf", "rb") as in_f:
    input1 = PdfFileReader(in_f)
    output = PdfFileWriter()

    numPages = input1.getNumPages()
    print "document has %s pages." % numPages

    for i in range(numPages):
        page = input1.getPage(i)
        print page.mediaBox.getUpperRight_x(), page.mediaBox.getUpperRight_y()
        page.trimBox.lowerLeft = (25, 25)
        page.trimBox.upperRight = (225, 225)
        page.cropBox.lowerLeft = (50, 50)
        page.cropBox.upperRight = (200, 200)
        output.addPage(page)

    with open("out.pdf", "wb") as out_f:
        output.write(out_f)

pdf本身被裁剪，但未裁剪的pdf的所有文本仍然保留。如果我复制新PDF的所有内容，甚至裁剪(不可见)的文本也会被复制。

python

pdf

回答 1

Stack Overflow用户

发布于 2019-04-23 16:29:16

在我玩了你的PDF和裁剪后，我发现这是不可能的裁剪和删除invisible数据。

基本上，裁剪所做的就是将/CropBox [ 50 50 200 200 ]元素添加到PDF中，但实际数据仍然保留在PDF中。

提示:尝试在不裁剪的情况下提取数据，也可以使用pdfminer、ghostscript之类的库，或者尝试使用PyPDF提取文本或获取上下文框。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55786826

复制

相似问题

问如何丢弃PDF中的裁剪文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何丢弃PDF中的裁剪文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何丢弃PDF中的裁剪文本
EN