import PyPDF2

with open('sample.pdf','rb') as pdf_file, open('sample_output.txt', 'w') as text_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    for page_number in range(number_of_pages):   # use xrange in Py2
        page = read_pdf.getPage(page_number)
        print('Page No - ' + str(1 + read_pdf.getPageNumber(page)))
        page_content = page.extractText()
        text_file.write(page_content)

票数 0

Data Science用户

发布于 2023-05-27 04:40:00

您可以通过使用像pytesseract这样的OCR引擎来做到这一点。一旦文本被提取，您可以使用自定义的NLP规则来构建问题及其答案，也可以使用问答模型来完成这一任务。有许多这样的模型，如Layoutlm系列。Huggingface拥有许多这样的模型。

另外，不要使用PyPDF2，因为与pytesseract相比，它并不那么健壮。我试过了，它只适用于特定的pdfs。

Cheers!

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/39261

复制

相似问题

问如何从pdf中获取文本，以便从同一文档中进一步进行基于问题回答的模型？
EN

回答 2

Data Science用户

Data Science用户

Cheers!

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从pdf中获取文本，以便从同一文档中进一步进行基于问题回答的模型？EN

回答 2

Data Science用户

Data Science用户

Cheers!

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从pdf中获取文本，以便从同一文档中进一步进行基于问题回答的模型？
EN