使用python从多个文件夹读取和提取多个PDF

使用Python从多个文件夹读取和提取多个PDF可以通过以下步骤实现：

导入所需的库：

import os
from PyPDF2 import PdfFileReader

定义一个函数来读取和提取PDF文件：

def extract_pdf_files(folder_path):
    pdf_files = []
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(".pdf"):
                pdf_files.append(os.path.join(root, file))
    
    extracted_text = []
    for pdf_file in pdf_files:
        with open(pdf_file, "rb") as file:
            pdf = PdfFileReader(file)
            num_pages = pdf.getNumPages()
            for page_num in range(num_pages):
                page = pdf.getPage(page_num)
                extracted_text.append(page.extractText())
    
    return extracted_text

调用函数并传入包含PDF文件的文件夹路径：

folder_path = "path/to/folder"
extracted_text = extract_pdf_files(folder_path)

这样，extracted_text 列表将包含从多个文件夹中的多个PDF文件中提取的文本。

关于这个问题中涉及的一些名词的解释如下：

Python：一种高级编程语言，具有简洁而易读的语法，广泛应用于各种领域的软件开发。
文件夹：用于存储和组织文件的目录。
PDF：Portable Document Format 的缩写，一种用于显示和打印文档的文件格式。
PyPDF2：Python 的一个库，用于处理 PDF 文件。
提取文本：从 PDF 文件中提取可读文本的过程。
os.walk()：Python 的一个函数，用于遍历指定文件夹及其子文件夹中的所有文件。
PdfFileReader：PyPDF2 库中的一个类，用于读取 PDF 文件。
getNumPages()：PdfFileReader 类的一个方法，用于获取 PDF 文件中的页数。
getPage()：PdfFileReader 类的一个方法，用于获取指定页数的页面对象。
extractText()：PdfFileReader 类的一个方法，用于从页面对象中提取文本。

腾讯云相关产品和产品介绍链接地址请参考腾讯云官方网站。

使用python从多个文件夹读取和提取多个PDF

python、pdf、text

我有一个名为SOURCE的文件夹。此源文件夹有多个文件夹- A、B、C、D、E、F、G、H。所有这些文件夹都有多个PDF文件。我想从All中读取单个pdf文件-一个从A中，一个从B中，一个从C中，一个从D中，直到H。所以在所有的8个文件夹中，我想读取第一个pdf文件并从中提取文本数据。

浏览 16提问于2021-06-25得票数 0

回答已采纳

2回答

我试着一个一个地读pdf，然后把它转换成数据格式

python、dataframe、pdf、pathlib、pymupdf

我使用Pymupdf模块中的“fitz”来提取数据，然后用熊猫将提取出来的数据转换成数据。#从文件夹读取多个pdfs的代码：# returns all file paths that has .pdf as extension in the]for pdf in pdf_files: with fitz.open(<e

浏览 5提问于2022-01-25得票数 0

1回答

在Python* / Torch多处理下使用的EasyOCR默认为CPU*

python、pytorch、gpu、cpu、python-multiprocessing

我正在使用EasyOCR从图像中提取文本。它使用PyTorch。在不同的文件夹中有多个图像，读取这些文件夹的顺序并不重要。当按顺序运行时，EasyOCR默认使用图形处理器，并且比在中央处理器上运行时更快。但是当调用Python / Torch Multiprocessing，以便并行读取多个文件夹时，EasyOCR默认使用CPU。tor

浏览 2提问于2020-11-23得票数 0

1回答

如何分发python脚本以并行但顺序地处理大规模数据？

python、multithreading、architecture、bigdata

下面是我们必须解决的情况：我为上面的每个任务编写了python函数，总共有5个函数，第一个函数的输出作为第二个函数的输入，有多个文件夹保存PDF，这必须手动输入，因此目前我们正在手动运行多个代码实例，并指定要执行的文件夹，新文件夹将继续随时间上载。处理一个<e

浏览 2提问于2018-09-17得票数 0

回答已采纳

1回答

是否有命令行工具可以从pdf中大量提取图像？

command-line、pdf、image-processing、batch

我有一个pdf目录，是从一个客户给我的pdf格式。他们没有图像，但他们在pdf中。是否有方法在保留原始文件名的同时使用命令行工具从pdf中提取所有图像？我在这里复习了这个问题：用图层掩码从PDF中提取图像，但它是针对个人图像的。

浏览 0提问于2012-03-29得票数 29

回答已采纳

1回答

从pdf文件中读取图像

python、django、image、file、pdf

我有一个要求，客户将上传一个pdf文件，其中包含图像/s。我必须读取那个pdf文件，从它们中提取图像，然后将图像保存到db和硬盘中。但我不知道如何使用Python/Django代码从pdf文件中提取图像。是否有从pdf文件中读取和提取图像的python库。提前谢谢。

浏览 2提问于2013-08-09得票数 0

回答已采纳

2回答

使用Adobe API提取PDF内容

java、pdf、adobe

我正在尝试读取PDF文件的内容，该文件由多个表组成。使用Java和Adobe API，如果所有单元格都有一行内容，我就能够提取表格中的内容。当单元格有多行时，问题就出现了，这会导致提取的内容移动到下一行，从而导致与表头不对齐。有没有什么方法可以从PDF中按原样提取内容，同时保持表格格式与在PDF中显示的方式相同？我目前正在使用\t转义字符来提取数据。

浏览 56提问于2015-02-11得票数 2

2回答

从多个PDF中提取数据

python、parsing、pdf

我试图从PDF文档中提取数据，并有关于这一点-我能够让代码为一个单一的PDF工作。然而，有没有一种方法可以将代码指向包含多个PDF的文件夹，并以CSV格式提取出来？我是一个完整的Python初学者，所以任何帮助都将不胜感激。下面是我拥有的当前代码。import pdfplumber

浏览 22提问于2021-04-08得票数 0

1回答

iText读取多色PDF文档

java、android、pdf、itext

读取多色PDF文档reader = new PdfReader(getResources().openRawResource\\W)", "$1 "); 我正在使用作为一个样本PDF，这是从</

浏览 3提问于2012-11-12得票数 0

回答已采纳

1回答

用于向具有不同附件的多个收件人发送电子邮件的Python脚本

python、email、pdf

我有一个python程序，发送电子邮件给多个收件人与多个附件(它采取所有的pdf文件在一个文件夹中，并发送电子邮件)。现在我想这么做file1.pdf file2.pdf file3.pdf file4.pdf file5.pdf file6.pdf.....我有一个文本文件，其中将包含名称，电子邮件I和要附加的文件列表 recipient1 r

浏览 3提问于2018-02-07得票数 0

回答已采纳

1回答

如何使用R库遍历多个pdf文件

我有一个任务来读取多个pdf文件，并提取页眉和页脚。下面的代码帮助我从一个文件中没有任何问题地获取页眉和页脚，但我想对多个文件执行相同的操作并提取数据。请给我建议。library(pdftools)files<- list.files(pattern='pdf$') #Fileheader and footer ex

浏览 30提问于2021-01-19得票数 0

回答已采纳

2回答

使用java从pdf中识别和提取表格

pdf、itext、pdfbox、java

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。我使用iText java来读取和提取。没有得到任何线索，以确定哪些表格存在于pdf中，以及如何从</e

浏览 12提问于2017-03-31得票数 1

1回答

Python文件读取

python、zip

我是python的新手，我有一个.zip文件，它有多个子文件夹，每个子文件夹都有多个.txt文件。我正在尝试读取所有的.txt文件，但我想将特定于文件文件夹的文件存储到一个变量中，但我无法这样做。对于"test.zip“(其中有三个文件夹"a”、"b“、"c”)，每个文件夹都有多个(>10,000个) .txt文件，我想读取文件夹&qu

浏览 2提问于2019-03-01得票数 0

1回答

从Python中的pdf文件中提取固定大小和位置表

python-3.x、text-extraction、pdfminer、python-camelot、excalibur-py

假设我有许多类似于的pdf文件我可以做提取表和保存excel文件手动与包。在使用安装pip3之后，我将使用以下方法初始化元数据数据库：然后转到，开始从PDF中提取表格数据我想知道是否可以用python脚本自动完成包含、、等包的多个<

浏览 4提问于2021-04-13得票数 0

回答已采纳

1回答

如何将PDF文件名中的日期提取为数据集？

r、date、dataset、corpus

我正在尝试从多个PDF中提取日期，以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.pdf 2 ./2012.02.07.pdf3 .&

浏览 6提问于2022-11-27得票数 1

回答已采纳

2回答

如何从文件夹中读取多个numpy数组

python、numpy

我在一个文件夹中有多个numpy数组(.npy)。有没有一种方法可以在Python中自动读取它们？或者我需要手动输入他们的名字？我找不到与从Python文件夹中读取多个numpy数组相关的信息。

浏览 43提问于2019-07-31得票数 2

回答已采纳

2回答

如何在pdfplumber中打开多个文件？

python、python-3.x、file-rename

我用Access DB forms创建了多个PDF文件。我可以从它们中提取文本的唯一方法是使用pdfplumber。这是我的代码，它只适用于一个文件。import pdfplumber page = pdf.pages[0] file_name = string

浏览 87提问于2020-07-26得票数 0

2回答

火花缺失1必需的位置参数(lambda函数)

python、apache-spark、lambda、pyspark、rdd

我正在尝试使用Spark在多台服务器之间分发从PDF中提取的一些文本。这使用了我创建的自定义Python模块，它是一个。在本例中，配置文件只是一个简单的YAML文件，位于与运行提取的Python脚本相同的文件夹中，并且这些文件只是在Spark服务器之间重复。我的主要问题是能够使用文件名作为第一个参数来调用提取函数，而不是文件的内容。这是我到目前为止的基本脚本，在files文件夹中的

浏览 5提问于2018-01-08得票数 0

回答已采纳

2回答

有没有办法从PDF中提取无边框表格到CSV？

python、tabula、pymupdf

 这是我的示例图片，来自pdf文件，有75页。

浏览 77提问于2020-06-08得票数 1

2回答

使用批处理文件获取文件名的步骤

windows、batch-file

我已经写了批处理文件来提取文件夹中多个文件的最后8个字符。但是批处理文件没有给出期望的结果。我的文件夹由下面提到的文件名sub_rachit_01.pdf和sub_kapoor_02.pdf组成。我想从文件夹中提取rachit_01和kapoor_02作为变量。批处理文件切碎如下： set /p location=Please enter location of .pdf</e

浏览 0提问于2018-02-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用python从多个文件夹读取和提取多个PDF

相关·内容

使用python从多个文件夹读取和提取多个PDF

我试着一个一个地读pdf，然后把它转换成数据格式

在Python* / Torch多处理下使用的EasyOCR默认为CPU*

如何分发python脚本以并行但顺序地处理大规模数据？

是否有命令行工具可以从pdf中大量提取图像？

从pdf文件中读取图像

使用Adobe API提取PDF内容

从多个PDF中提取数据

iText读取多色PDF文档

用于向具有不同附件的多个收件人发送电子邮件的Python脚本

如何使用R库遍历多个pdf文件

使用java从pdf中识别和提取表格

Python文件读取

从Python中的pdf文件中提取固定大小和位置表

如何将PDF文件名中的日期提取为数据集？

如何从文件夹中读取多个numpy数组

如何在pdfplumber中打开多个文件？

火花缺失1必需的位置参数(lambda函数)

有没有办法从PDF中提取无边框表格到CSV？

使用批处理文件获取文件名的步骤

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐