文章/答案/技术大牛

发布

社区首页 >问答首页 >用Python从PDF中提取文本

问用Python从PDF中提取文本
EN

Stack Overflow用户

提问于 2017-03-22 21:16:50

回答 3查看 7.8K关注 0票数 1

我有一份PDF格式的引文：

https://www.pdf-archive.com/2017/03/22/test/

我可以使用以下代码在python中提取文本：

import PyPDF2

pdfFileObj = open('example.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
print (pageObj.extractText())

这会将所有引号作为一个段落返回。是否有可能通过水平分隔符将pdf“拆分”并以这种方式将其拆分为引号？

python

pdf

pypdf2

回答 3

Stack Overflow用户

回答已采纳

发布于 2017-03-22 21:35:21

如果您只想从pdf文本中提取引号，可以使用regex查找所有引号。

import PyPDF2
import re
pdfFileObj = open('test.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
text = str(pageObj.extractText())

quotes = re.findall(r'"[^"]*"',text)
for quote in quotes:
    print quote
    print

或者只是

quotes = re.findall(r'"[^"]*"',text)
print quotes

票数 1

Stack Overflow用户

发布于 2017-03-22 21:26:38

我找不到用水平分隔符来分割它的方法，但我设法以另一种方式实现了它：

import PyPDF2

quotes = []

pdfFileObj = open('test.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
for x in (pageObj.extractText()).split('"\n'): print x+"\n"*5

票数 0

Stack Overflow用户

发布于 2019-07-10 08:43:40

import pdfplumber

pdf = pdfplumber.open(file_path)

p0 = pdf.pages[0]

text = p0.extract_text()

text

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42962811

复制

相似问题

问用Python从PDF中提取文本
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Python从PDF中提取文本EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Python从PDF中提取文本
EN