我正在尝试使用pdfminer.six库(如)从pdf中提取文本,我已经在我的虚拟环境中安装了它。这是我的代码:
import pdfminer as miner
text = miner.high_level.extract_text('file.pdf')
print(text)
但是,当我使用python pdfreader.py执行代码时,会得到以下错误:
Traceback (most recent call last):
File ".\pdfreader.py", line 9, in <module>
text
我从python的pdf中提取了一些粗体文本。效果很好。但是我也想提取这个句子,或者在粗体文本之后多一个句子,例如:“蓝天是我们抬头看到的东西。”
我可以提取蓝天的部分。但我无法提取“当我们抬头时看到的”部分。
import pdfplumber
with pdfplumber.open('C:/Users/somefile.pdf') as pdf:
for i in range(12, 15):
text = pdf.pages[i]
clean_text = text.filter(lambda obj: obj["o
我制作了一个从PDF中提取手写文本的Python模块。提取有时会相当慢(每个文件20-30秒)。我有大约100,000个PDF(有些有很多页),我想在所有这些文件上运行文本提取。本质上是这样的:
fileNameList = ['file1.pdf','file2.pdf',...,'file100000.pdf']
for pdf in fileList:
text = myModule.extractText(pdf) # Distribute this function
# Do stuff with text
我们以前使
我一直在尝试从pdfs中提取文本,我正在使用python的PyPDF2和提取文本,但现在我试图从不可复制的PDFs中提取文本。它会返回空字符串。 我正在从这里在线将简单的可复制的PDF转换为不可复制的PDF:https://online-pdf-no-copy.com/ 下面是我的代码: from PyPDF2 import PdfFileReader
def get_info(path):
with open(path, 'rb') as f:
pdf = PdfFileReader(f)
if pdf.isEncrypted: