使用Python从多个文件夹读取和提取多个PDF可以通过以下步骤实现:
import os
from PyPDF2 import PdfFileReader
def extract_pdf_files(folder_path):
pdf_files = []
for root, dirs, files in os.walk(folder_path):
for file in files:
if file.endswith(".pdf"):
pdf_files.append(os.path.join(root, file))
extracted_text = []
for pdf_file in pdf_files:
with open(pdf_file, "rb") as file:
pdf = PdfFileReader(file)
num_pages = pdf.getNumPages()
for page_num in range(num_pages):
page = pdf.getPage(page_num)
extracted_text.append(page.extractText())
return extracted_text
folder_path = "path/to/folder"
extracted_text = extract_pdf_files(folder_path)
这样,extracted_text
列表将包含从多个文件夹中的多个PDF文件中提取的文本。
关于这个问题中涉及的一些名词的解释如下:
os.walk()
:Python 的一个函数,用于遍历指定文件夹及其子文件夹中的所有文件。PdfFileReader
:PyPDF2 库中的一个类,用于读取 PDF 文件。getNumPages()
:PdfFileReader
类的一个方法,用于获取 PDF 文件中的页数。getPage()
:PdfFileReader
类的一个方法,用于获取指定页数的页面对象。extractText()
:PdfFileReader
类的一个方法,用于从页面对象中提取文本。腾讯云相关产品和产品介绍链接地址请参考腾讯云官方网站。
领取专属 10元无门槛券
手把手带您无忧上云