问PyPDF2提取空白文本
EN

Stack Overflow用户

提问于 2021-02-01 15:28:13

回答 1查看 117关注 0票数 0

我试图从PyPDF2中提取文本，但它正在从PDF中提取空白文本。PDF是文本格式的，而不是基于图像的。有没有办法对pdf进行泛化，使其提取文本？因为我不想改变这个库，我的整个代码都依赖于它。否则，我将不得不重写整个2000+代码行。在这里找到pdf：https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv3gzZPOvt5Ovhc/view?usp=sharing

import PyPDF2
pdf_file = open('sample.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()

python

pdf

pypdf2

回答 1

Stack Overflow用户

发布于 2021-02-01 21:03:32

extractText()仍然存在问题，无法正确提取文本。您可以使用另一个名为slate的库

Install slate：

pip install slate3k

提取文本：

with open('G10.pdf','rb') as f:
    extracted_text = slate.PDF(f)
print(extracted_text)

你也可以通过这个答案here。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65988673

复制

相似问题

问PyPDF2提取空白文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PyPDF2提取空白文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PyPDF2提取空白文本
EN