使用python从多个文件夹读取和提取多个PDF

使用Python从多个文件夹读取和提取多个PDF可以通过以下步骤实现：

导入所需的库：

import os
from PyPDF2 import PdfFileReader

定义一个函数来读取和提取PDF文件：

def extract_pdf_files(folder_path):
    pdf_files = []
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(".pdf"):
                pdf_files.append(os.path.join(root, file))
    
    extracted_text = []
    for pdf_file in pdf_files:
        with open(pdf_file, "rb") as file:
            pdf = PdfFileReader(file)
            num_pages = pdf.getNumPages()
            for page_num in range(num_pages):
                page = pdf.getPage(page_num)
                extracted_text.append(page.extractText())
    
    return extracted_text

调用函数并传入包含PDF文件的文件夹路径：

folder_path = "path/to/folder"
extracted_text = extract_pdf_files(folder_path)

这样，extracted_text 列表将包含从多个文件夹中的多个PDF文件中提取的文本。

关于这个问题中涉及的一些名词的解释如下：

Python：一种高级编程语言，具有简洁而易读的语法，广泛应用于各种领域的软件开发。
文件夹：用于存储和组织文件的目录。
PDF：Portable Document Format 的缩写，一种用于显示和打印文档的文件格式。
PyPDF2：Python 的一个库，用于处理 PDF 文件。
提取文本：从 PDF 文件中提取可读文本的过程。
os.walk()：Python 的一个函数，用于遍历指定文件夹及其子文件夹中的所有文件。
PdfFileReader：PyPDF2 库中的一个类，用于读取 PDF 文件。
getNumPages()：PdfFileReader 类的一个方法，用于获取 PDF 文件中的页数。
getPage()：PdfFileReader 类的一个方法，用于获取指定页数的页面对象。
extractText()：PdfFileReader 类的一个方法，用于从页面对象中提取文本。

腾讯云相关产品和产品介绍链接地址请参考腾讯云官方网站。

相关·内容

Python办公自动化｜批量合并PDF，拿来就用

大家好，今天分享一个实用的办公脚本：将多个PDF合并为一个PDF，例如我手上现在有如下3个PDF分册，需要整合成一个完整的PDF

PyPDF2读取PDF文件内容保存到本地TXT实例

方法一：将pdf文件通过拆分为单页，放入一个文件夹，再删除其中不要的文件，最后再把剩余的文件进行合并为一个pdf文件

往"某度文库"上传资源之前,请先做好这些...想到一句好玩的话:知道是你干的，只是懒得抓你!如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励！

013

用Python处理PDF

PDF作为可移植文档格式(Portable Document Format)，在日常生活中经常接触到，最近处理一些数据更是频繁接触一些需要批量处理pdf文件的需求，因此便想整理一下自己实践的用Python处理PDF格式数据的笔记。本文会保持更新。PDF处理的高频需求有：读取、写入、格式转换（pdf提取文本写入txt、根据url写入pdf等）、批处理（多个pdf合并为1个、切分pdf）等等。查了下相关资料，Python操作PDF的库有（只是应用的话肯定不至于造轮子从二进制数据开始读）：pdfminer、pdfminer3k、PyPDF、PyPDF2、pdf2htmlex、pdf2image、pdf2xlsx等。

如何使用Python玩转PDF各种骚操作？

Portable Document Format（可移植文档格式），或者PDF是一种文件格式，可以用于跨操作系统的呈现和文档交换。尽管PDF最初是由Adobe发明的，但它现在是由国际标准化组织（ISO）维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。

如何使用Python玩转PDF各种骚操作？

Python玩转PDF各种骚操作大全！

如何使用Python玩转PDF各种骚操作？

python将多个pdf合成一个

使用注意事项 1、程序第63行，默认指定了一个目录，“D:\扫描文件“，然后在其下建“\input”和“\output”两个子文件夹。 2、将待合并的pdf文件放在“\input”中，合并后的文件默认为“某某资料合并文件.pdf”，可在程序第64行修改你期望的文件名，合并后文件输出到“\output”。 3、合并多个文件时，合并顺序为文件名升序。补充说明，如何使用python，建议学一本免费的电子书《编程小白的第一本Python入门书》，网上可搜。

用Python玩转PDF的各种骚操作

python3用PyPDF2解析pdf文件,用正则匹配数据方式

补充知识：Logger logger = Logger.getLogger(Class clazz)获取不得的问题

Python玩转PDF文档的各种实用操作

今天小编为大家分享如何用Python来玩转PDF文档，例如提取当中的部分内容并导出，给PDF文件添加水印，合并多份PDF文件等等，而本文会着重用到PyPDF2模块来玩转PDF文档，以及tabula模块来对PDF文档中的表格数据进行读取

python实现pdf文档合并

之前一番在免费知识星球给大家开发过一个在windows下使用的简单的pdf合并工具。其实用python去实现真的很简单，用了tkinter + PyPDF2 + pyinstaller。今天一番来解读下这个小工具怎么用python实现pdf文档合并的，而且合并完后还自带目录。

Python爬虫：爬取在线教程转成pdf

1、网站介绍2、准备工作2.1 软件安装2.2 库安装3、爬取内容3.1 获取教程名称3.2 获取目录及对应网址3.3 获取章节内容3.4 保存pdf3.5 合并pdf4、完整代码

教你用Python 操作 PDF 的几种方法

作者 | 陈熹来源 | 早起Python（ID:zaoqi-python） 01 前言大家好，有关 Python 操作 PDF 的案例之前已经写过一个?PDF批量合并，这个案例初衷只是给大家

最全总结！聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

一、前言大家好，有关Python操作PDF的案例之前已经写过一个?PDF批量合并，这个案例初衷只是给大家提供一个便利的脚本，并没有太多讲解原理,其中涉及的就是PDF处理很实用的模块PyPDF2，本文

Python自动化（二十） | 聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用python从多个文件夹读取和提取多个PDF

相关·内容

Python办公自动化｜批量合并PDF，拿来就用

PyPDF2读取PDF文件内容保存到本地TXT实例

往"某度文库"上传资源之前,请先做好这些...想到一句好玩的话:知道是你干的，只是懒得抓你!如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励！

用Python处理PDF

如何使用Python玩转PDF各种骚操作？

如何使用Python玩转PDF各种骚操作？

Python玩转PDF各种骚操作大全！

python pdf

Python处理PDF及生成多层PDF

Python利用PyPDF2库获取PDF文件总页码实例

如何使用Python玩转PDF各种骚操作？

python将多个pdf合成一个

用Python玩转PDF的各种骚操作

python3用PyPDF2解析pdf文件,用正则匹配数据方式

Python玩转PDF文档的各种实用操作

python实现pdf文档合并

Python爬虫：爬取在线教程转成pdf

教你用Python 操作 PDF 的几种方法

最全总结！聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

Python自动化（二十） | 聊聊 Python 操作PDF的几种方法（合并、拆分、水印、加密）

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐