我需要使用linux shell裁剪一个pdf文档,然后在裁剪后的pdf中提取文本。
我的想法是使用pdfcrop linux工具裁剪pdf,然后使用txt2pdf文本提取器工具来提取裁剪区域中的文本,但我意识到我是在图像上思考,当我尝试这样做时,结果与在原始的,而不是裁剪的pdf上做的是一样的。
我猜这是一个层次问题。由于pdf格式适用于图层,如果我不“裁剪”所有图层,结果将包含所有图层的所有信息,这是我不想要的。
如果有人知道如何在pdf中进行真正的“全层裁剪”,我将不胜感激。如果可能,或者如果我应该开始考虑另一种解决方案。
TY
发布于 2014-11-04 00:15:35
它不是图层,它的事实是,裁剪PDF通常只涉及设置CropBox,这不会改变PDF的实际内容(除了CropBox)。大多数文本提取代码将忽略CropBox并提取所有文本...
通过一些努力,您可以使用Ghostscript生成一个真正裁剪的PDF (但请注意,仍将包含部分裁剪的字形),然后从中提取文本。但那是相当丑陋的。
或者,Ghostscript和MuPDF都可以提取带有坐标信息的文本,这可能足以满足您的需求。
https://stackoverflow.com/questions/26717322
复制相似问题