首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何从pdf中获取文本,以便从同一文档中进一步进行基于问题回答的模型?

如何从pdf中获取文本,以便从同一文档中进一步进行基于问题回答的模型?
EN

Data Science用户
提问于 2018-10-06 06:59:11
回答 2查看 176关注 0票数 3

来说明上面的标题。

假设您有一个pdf文档,基本上是从硬拷贝扫描,现在有一组固定的问题要回答从文件本身。举个例子,一份文件包含了一份土地合同,现在一组固定的问题是“谁是卖方?”“资产的价格是什么?",文件提到这个答案可能有2-3次,作为一个人,这是一个简单的任务。

如何实现自动化?

EN

回答 2

Data Science用户

发布于 2018-10-06 12:20:23

您可以使用pypdf2从pdf中提取文本。

代码语言:javascript
运行
复制
import PyPDF2

with open('sample.pdf','rb') as pdf_file, open('sample_output.txt', 'w') as text_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    for page_number in range(number_of_pages):   # use xrange in Py2
        page = read_pdf.getPage(page_number)
        print('Page No - ' + str(1 + read_pdf.getPageNumber(page)))
        page_content = page.extractText()
        text_file.write(page_content)
票数 0
EN

Data Science用户

发布于 2023-05-27 04:40:00

您可以通过使用像pytesseract这样的OCR引擎来做到这一点。一旦文本被提取,您可以使用自定义的NLP规则来构建问题及其答案,也可以使用问答模型来完成这一任务。有许多这样的模型,如Layoutlm系列。Huggingface拥有许多这样的模型。

另外,不要使用PyPDF2,因为与pytesseract相比,它并不那么健壮。我试过了,它只适用于特定的pdfs。

Cheers!

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/39261

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档