PDFMiner中一个特别有趣的特性是，您可以控制在提取文本部分时如何对文本部分进行重新分组。您可以通过指定行、词、字符等之间的间距来实现这一点。因此，也许可以通过调整这一点来实现您想要的效果(这取决于文档的可变性)。PDFMiner还可以告诉你文本在页面中的位置，它可以通过对象ID和其他东西来提取数据。因此，深入研究PDFMiner并发挥其创造性吧！

但是你的问题确实不容易解决，因为在PDF中，文本不是连续的，而是由许多小的字符组组成的，这些字符组绝对位于页面中。PDF的重点是保持布局的完整性。它不是面向内容的，而是面向呈现的。

票数 61

Stack Overflow用户

发布于 2009-12-05 07:14:27

这是一个很难解决的问题，因为视觉上相似的PDF可能具有截然不同的结构，这取决于它们的制作方式。在最坏的情况下，库基本上需要像OCR一样工作。另一方面，PDF可能包含足够的结构和元数据，以便于删除表格和图形，库可以定制以利用这些结构和元数据。

我很确定没有开源工具可以解决各种各样的PDF的问题，但我记得我听说过商业软件声称完全可以做你要求的事情。我敢肯定你在谷歌搜索的时候会碰到他们。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1848464

复制

相似问题

问使用Python进行PDF解析-提取格式化文本和纯文本
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Python进行PDF解析-提取格式化文本和纯文本EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Python进行PDF解析-提取格式化文本和纯文本
EN