我有一份PDF格式的引文:
https://www.pdf-archive.com/2017/03/22/test/
我可以使用以下代码在python中提取文本:
import PyPDF2
pdfFileObj = open('example.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
print (pageObj.extractText())
这会将所有引号作为一个段落返回。是否有可能通过水平分隔符将pdf“拆分”并以这种方式将其拆分为引号?
发布于 2017-03-22 21:35:21
如果您只想从pdf文本中提取引号,可以使用regex
查找所有引号。
import PyPDF2
import re
pdfFileObj = open('test.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
text = str(pageObj.extractText())
quotes = re.findall(r'"[^"]*"',text)
for quote in quotes:
print quote
print
或者只是
quotes = re.findall(r'"[^"]*"',text)
print quotes
发布于 2017-03-22 21:26:38
我找不到用水平分隔符来分割它的方法,但我设法以另一种方式实现了它:
import PyPDF2
quotes = []
pdfFileObj = open('test.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
for x in (pageObj.extractText()).split('"\n'): print x+"\n"*5
发布于 2019-07-10 08:43:40
import pdfplumber
pdf = pdfplumber.open(file_path)
p0 = pdf.pages[0]
text = p0.extract_text()
text
https://stackoverflow.com/questions/42962811
复制相似问题