首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Pdf真实裁剪

Pdf真实裁剪
EN

Stack Overflow用户
提问于 2014-11-03 23:24:13
回答 1查看 493关注 0票数 0

我需要使用linux shell裁剪一个pdf文档,然后在裁剪后的pdf中提取文本。

我的想法是使用pdfcrop linux工具裁剪pdf,然后使用txt2pdf文本提取器工具来提取裁剪区域中的文本,但我意识到我是在图像上思考,当我尝试这样做时,结果与在原始的,而不是裁剪的pdf上做的是一样的。

我猜这是一个层次问题。由于pdf格式适用于图层,如果我不“裁剪”所有图层,结果将包含所有图层的所有信息,这是我不想要的。

如果有人知道如何在pdf中进行真正的“全层裁剪”,我将不胜感激。如果可能,或者如果我应该开始考虑另一种解决方案。

TY

EN

回答 1

Stack Overflow用户

发布于 2014-11-04 00:15:35

它不是图层,它的事实是,裁剪PDF通常只涉及设置CropBox,这不会改变PDF的实际内容(除了CropBox)。大多数文本提取代码将忽略CropBox并提取所有文本...

通过一些努力,您可以使用Ghostscript生成一个真正裁剪的PDF (但请注意,仍将包含部分裁剪的字形),然后从中提取文本。但那是相当丑陋的。

或者,Ghostscript和MuPDF都可以提取带有坐标信息的文本,这可能足以满足您的需求。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26717322

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档