问Pdf真实裁剪
EN

Stack Overflow用户

提问于 2014-11-03 23:24:13

回答 1查看 493关注 0票数 0

我需要使用linux shell裁剪一个pdf文档，然后在裁剪后的pdf中提取文本。

我的想法是使用pdfcrop linux工具裁剪pdf，然后使用txt2pdf文本提取器工具来提取裁剪区域中的文本，但我意识到我是在图像上思考，当我尝试这样做时，结果与在原始的，而不是裁剪的pdf上做的是一样的。

我猜这是一个层次问题。由于pdf格式适用于图层，如果我不“裁剪”所有图层，结果将包含所有图层的所有信息，这是我不想要的。

如果有人知道如何在pdf中进行真正的“全层裁剪”，我将不胜感激。如果可能，或者如果我应该开始考虑另一种解决方案。

发布于 2014-11-04 00:15:35

它不是图层，它的事实是，裁剪PDF通常只涉及设置CropBox，这不会改变PDF的实际内容(除了CropBox)。大多数文本提取代码将忽略CropBox并提取所有文本...

通过一些努力，您可以使用Ghostscript生成一个真正裁剪的PDF (但请注意，仍将包含部分裁剪的字形)，然后从中提取文本。但那是相当丑陋的。

或者，Ghostscript和MuPDF都可以提取带有坐标信息的文本，这可能足以满足您的需求。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26717322

复制

相似问题

问Pdf真实裁剪EN