首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PyPDF2提取空白文本

PyPDF2提取空白文本
EN

Stack Overflow用户
提问于 2021-02-01 15:28:13
回答 1查看 117关注 0票数 0

我试图从PyPDF2中提取文本,但它正在从PDF中提取空白文本。PDF是文本格式的,而不是基于图像的。有没有办法对pdf进行泛化,使其提取文本?因为我不想改变这个库,我的整个代码都依赖于它。否则,我将不得不重写整个2000+代码行。在这里找到pdf:https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv3gzZPOvt5Ovhc/view?usp=sharing

代码语言:javascript
运行
复制
import PyPDF2
pdf_file = open('sample.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
EN

回答 1

Stack Overflow用户

发布于 2021-02-01 21:03:32

extractText()仍然存在问题,无法正确提取文本。您可以使用另一个名为slate的库

Install slate:

代码语言:javascript
运行
复制
pip install slate3k

提取文本:

代码语言:javascript
运行
复制
with open('G10.pdf','rb') as f:
    extracted_text = slate.PDF(f)
print(extracted_text)

你也可以通过这个答案here

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65988673

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档