我正在寻找一个PDF库,将允许我从PDF文件中提取文本。我看过PyPDF,它可以很好地从PDF文档中提取文本。
我想从PDF文档中提取文本,不包括任何表格和特殊格式。有没有这样的图书馆呢?
发布于 2009-12-05 11:07:56
您还可以查看PDFMiner (或者对于较早版本的Python,请参阅PDFMiner和PDFMiner)。
PDFMiner中一个特别有趣的特性是,您可以控制在提取文本部分时如何对文本部分进行重新分组。您可以通过指定行、词、字符等之间的间距来实现这一点。因此,也许可以通过调整这一点来实现您想要的效果(这取决于文档的可变性)。PDFMiner还可以告诉你文本在页面中的位置,它可以通过对象ID和其他东西来提取数据。因此,深入研究PDFMiner并发挥其创造性吧!
但是你的问题确实不容易解决,因为在PDF中,文本不是连续的,而是由许多小的字符组组成的,这些字符组绝对位于页面中。PDF的重点是保持布局的完整性。它不是面向内容的,而是面向呈现的。
发布于 2009-12-05 07:14:27
这是一个很难解决的问题,因为视觉上相似的PDF可能具有截然不同的结构,这取决于它们的制作方式。在最坏的情况下,库基本上需要像OCR一样工作。另一方面,PDF可能包含足够的结构和元数据,以便于删除表格和图形,库可以定制以利用这些结构和元数据。
我很确定没有开源工具可以解决各种各样的PDF的问题,但我记得我听说过商业软件声称完全可以做你要求的事情。我敢肯定你在谷歌搜索的时候会碰到他们。
https://stackoverflow.com/questions/1848464
复制相似问题