我试图从PyPDF2中提取文本,但它正在从PDF中提取空白文本。PDF是文本格式的,而不是基于图像的。有没有办法对pdf进行泛化,使其提取文本?因为我不想改变这个库,我的整个代码都依赖于它。否则,我将不得不重写整个2000+代码行。在这里找到pdf:https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv3gzZPOvt5Ovhc/view?usp=sharing
import PyPDF2
pdf_file = open('sample.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()发布于 2021-02-01 21:03:32
extractText()仍然存在问题,无法正确提取文本。您可以使用另一个名为slate的库
Install slate:
pip install slate3k提取文本:
with open('G10.pdf','rb') as f:
extracted_text = slate.PDF(f)
print(extracted_text)你也可以通过这个答案here。
https://stackoverflow.com/questions/65988673
复制相似问题