首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用Python进行PDF解析-提取格式化文本和纯文本

使用Python进行PDF解析-提取格式化文本和纯文本
EN

Stack Overflow用户
提问于 2009-12-05 01:28:30
回答 2查看 125.3K关注 0票数 82

我正在寻找一个PDF库,将允许我从PDF文件中提取文本。我看过PyPDF,它可以很好地从PDF文档中提取文本。

我想从PDF文档中提取文本,不包括任何表格和特殊格式。有没有这样的图书馆呢?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-12-05 11:07:56

您还可以查看PDFMiner (或者对于较早版本的Python,请参阅PDFMinerPDFMiner)。

PDFMiner中一个特别有趣的特性是,您可以控制在提取文本部分时如何对文本部分进行重新分组。您可以通过指定行、词、字符等之间的间距来实现这一点。因此,也许可以通过调整这一点来实现您想要的效果(这取决于文档的可变性)。PDFMiner还可以告诉你文本在页面中的位置,它可以通过对象ID和其他东西来提取数据。因此,深入研究PDFMiner并发挥其创造性吧!

但是你的问题确实不容易解决,因为在PDF中,文本不是连续的,而是由许多小的字符组组成的,这些字符组绝对位于页面中。PDF的重点是保持布局的完整性。它不是面向内容的,而是面向呈现的。

票数 61
EN

Stack Overflow用户

发布于 2009-12-05 07:14:27

这是一个很难解决的问题,因为视觉上相似的PDF可能具有截然不同的结构,这取决于它们的制作方式。在最坏的情况下,库基本上需要像OCR一样工作。另一方面,PDF可能包含足够的结构和元数据,以便于删除表格和图形,库可以定制以利用这些结构和元数据。

我很确定没有开源工具可以解决各种各样的PDF的问题,但我记得我听说过商业软件声称完全可以做你要求的事情。我敢肯定你在谷歌搜索的时候会碰到他们。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1848464

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档