问如何从特定的pdf页面而不是整个文档访问文本？
EN

Stack Overflow用户

提问于 2019-06-20 06:43:28

回答 2查看 1.3K关注 0票数 0

我正在试着从一些pdf文档中提取一些东西。虽然我在pdfminer和pymupdf上的投资最多，但我一直在摆弄各种工具。我从pdfminer开始，但在不能解决一个特定的问题后开始测试pymupdf -当我的pdf文档有许多页面时，我想选择是否处理每个特定的页面。但是，我在使用这两个库时遇到的问题是，当我试图从一个特定页面(或另一个页面)检索文本时，返回的文本是文档中的所有文本。

这是一个有57页的document的链接。

我将在这里重点介绍使用pymupdf的情况。

下面是一些代码

import fitz
doc = fitz.open('local_path_to_file_from_link_above')
for page in doc:
    text = page.getText().encode("utf8")
    break

我在这里打断一下，确认我只从一页中提取了文本-但当我检查文本时，我发现它几乎包含了整个文档(总共57页)中的所有文本

所以我很好奇，尽管在pdf文件中出现了页面边界--也许它们并不存在，所以我使用pageCount属性/属性/方法来确定页面是否存在--它们似乎是存在的。

>>> doc.pageCount
57

当我循环遍历所有页面时，描述输出有点困难。每个页面并不包含所有页面中的所有内容，但它几乎包含所有内容。我通过使用以下代码确定了这一点

mydict = dict()
for n, page in doc:
    print n, len(p.getText())
    mydict[n] = p.getText()

以下是输出-以确保完整性

因此，关于第29页的内容存在偏差，并且从页面检索的文本的长度存在变化，但查看它，似乎存在明显的重叠

>>> mydict[0][0:5000] == mydict[1][0:5000]
True

但

>>> mydict[0][-5000:] == mydict[1][-5000:]
False

总而言之-库似乎理解现有的页面边界，但为单个页面检索的文本几乎是文档中的所有文本。由于生成了一个良好的ToC，因此我想使用该ToC提供的页码来标识我想要进一步解析和提取数据的特定页面。

我将观察到，我在尝试使用pdfminer时遇到了类似的问题。我可以检索所有文本，但不只是特定页面中的文本。

python

pdf

pymupdf

回答 2

Stack Overflow用户

发布于 2019-08-16 18:31:29

尝试以下操作，从该pdf的任何特定页面获取文本。

import fitz

path = r''

doc = fitz.open(path)
page = doc.loadPage(1) #put here the page number
page_to_text = page.getText("text")
print(page_to_text)

票数 1

Stack Overflow用户

发布于 2019-06-20 07:14:19

您可能需要考虑PyPDF2，它的PdfFileReader类有一个getPage方法

文档：PyPDF2 docs

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56676815

复制

相似问题

问如何从特定的pdf页面而不是整个文档访问文本？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从特定的pdf页面而不是整个文档访问文本？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从特定的pdf页面而不是整个文档访问文本？
EN