我用Access DB forms创建了多个PDF文件。我可以从它们中提取文本的唯一方法是使用pdfplumber。这是我的代码,它只适用于一个文件。
import pdfplumber
with pdfplumber.open('CS_page_1.pdf') as pdf:
page = pdf.pages[0]
string = page.extract_text()
file_name = string[43:48]
print(file_name)我需要使用这个提取的字符串来重命名这个文件和文件夹中的100个其他文件。最好的方法是什么?
发布于 2020-07-26 04:38:39
我会首先使用glob (https://docs.python.org/3/library/glob.html)创建一个文件夹中所有pdf的列表。
然后遍历它们中的每一个- pdfplumb它们以获得所需的字符串(您希望将文件重命名为该字符串)-然后分别重命名每个字符串(https://www.tutorialspoint.com/python/os_rename.htm)。如下所示:
import glob
import pdfplumber
import os
arr_of_files = (glob.glob("/path/to/pdfs/*.pdf"))
for file in arr_of_files:
with pdfplumber.open(file) as pdf:
page = pdf.pages[0]
string = page.extract_text()
file_name = string[43:48]
os.rename(file, file_name)发布于 2020-07-26 04:39:51
import pdfplumber
import glob
from tqdm.auto import tqdm
for current_pdf_file in tqdm(glob.glob("<pathname>\.pdf")):
with pdfplumber.open(current_pdf_file) as my_pdf:
# do other things here?https://stackoverflow.com/questions/63093234
复制相似问题