问如何读取一些pdf文件中除表格以外的所有内容？
EN

Stack Overflow用户

提问于 2019-09-02 19:03:56

回答 1查看 53关注 0票数 0

我想使用python读取pdf文件，但在阅读时，我不想将表格包含在pdf文件中。我只想要除了那些表格之外的所有其他内容。

我尝试过像PyPDF2和Tabula这样的库，但我只是找到了提取表格或读取包括表格在内的内容的方法。

我也不想创建一个新文件并在其中添加页面。准确地说，除了表的内容之外，所有的内容都应该是strings的list格式。

发布于 2019-09-02 19:45:21

最近尝试了这个支持深度学习技术的文档文本提取工具(这实际上是亚马逊的OCR工具)。当涉及到从PDF或图像文件中提取文本时，这可以提供更准确的结果。

有两个函数可以从PDF文件中提取文本，内容是字符串列表和Table/Forms/KeyValues格式的内容。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57755835

复制

相似问题

问如何读取一些pdf文件中除表格以外的所有内容？EN