使用Python PDFMiner将多个PDF提取为文本文件的循环脚本

可以通过以下步骤实现：

安装PDFMiner库：PDFMiner是一个Python库，用于解析PDF文件并提取文本。可以使用pip命令安装PDFMiner库：pip install pdfminer.six
导入所需的库：在Python脚本中，首先需要导入PDFMiner库的相关模块，以及其他可能需要使用的库。例如：

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import os

定义函数来提取PDF文本：创建一个函数，该函数接受PDF文件路径作为输入，并返回提取的文本内容。函数内部使用PDFMiner库来解析PDF文件并提取文本。例如：

def extract_text_from_pdf(pdf_path):
    resource_manager = PDFResourceManager()
    output_string = io.StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(resource_manager, output_string, codec=codec, laparams=laparams)
    with open(pdf_path, 'rb') as file:
        interpreter = PDFPageInterpreter(resource_manager, device)
        for page in PDFPage.get_pages(file, check_extractable=True):
            interpreter.process_page(page)
    text = output_string.getvalue()
    device.close()
    output_string.close()
    return text

循环遍历PDF文件并提取文本：在主程序中，可以使用循环来遍历包含多个PDF文件的文件夹，并调用上述函数来提取每个PDF文件的文本内容。例如：

pdf_folder = 'path/to/pdf/folder'
output_folder = 'path/to/output/folder'

for filename in os.listdir(pdf_folder):
    if filename.endswith('.pdf'):
        pdf_path = os.path.join(pdf_folder, filename)
        text = extract_text_from_pdf(pdf_path)
        output_path = os.path.join(output_folder, filename.replace('.pdf', '.txt'))
        with open(output_path, 'w', encoding='utf-8') as file:
            file.write(text)

以上脚本将循环遍历指定的PDF文件夹中的所有PDF文件，并将每个PDF文件提取的文本保存为相应的文本文件（以相同的文件名，但扩展名为.txt）。

推荐的腾讯云相关产品：腾讯云对象存储（COS）用于存储PDF文件和提取后的文本文件，腾讯云函数计算（SCF）用于托管和运行Python脚本。

腾讯云对象存储（COS）产品介绍链接：https://cloud.tencent.com/product/cos

腾讯云函数计算（SCF）产品介绍链接：https://cloud.tencent.com/product/scf

如何从合并的PDF文件中提取文本并转换为txt文件？

text-extraction

当iam尝试从合并的pdf文件中提取文本并使用PDFMiner将其转换为txt文件时，iam遇到PDFInterpreter错误:未知操作符'QQ‘，代码如下 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.layout import LAParams from pdfminer.converter import TextConverter from io import StringIO from pdfminer.pdfpa

浏览 15提问于2020-10-29得票数 0

2回答

如何在Python3中使用PDFminer.six？

python-3.x、pypdf2、pdfminer

我想使用pdfminer.six，这是一个工具，可以与Python3一起用于从PDF文档中提取信息。问题是根本没有好的文档，也没有关于如何使用该工具的源代码示例。我已经尝试了StackOverflow中的一些代码，但它不起作用。下面是我的代码。 from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_txt(path):

浏览 7提问于2019-06-07得票数 10

回答已采纳

2回答

如何使用python从PDF文件中只提取特定的文本

python、dataframe、tesseract、python-tesseract

如何使用python从PDF文件中提取一些特定的文本，并将输出数据存储到Excel的特定列中。这里是样例输入PDF文件(File.pdf) 链接到完整的PDF文件我们需要从整个文件中提取发票号、到期日和总到期的值。到目前为止我使用的脚本： from io import StringIO from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfdocument import PDFDocument from pdfminer.pd

浏览 2提问于2020-09-30得票数 0

2回答

将PDF转换为文本：“不允许提取文本”

python、python-3.x、pdfminer

我正试图用Python将PDF转换为文本。但这给了我一个错误： PDFTextExtractionNotAllowed:文本提取是不允许的：<_io.BufferedReader名称=‘C：\Users\下载\Facts_for_2017.pdf’> 我使用的代码是： import sys from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from pdfminer.converter import XMLCon

浏览 2提问于2019-01-02得票数 3

2回答

Pdf矿工如何提取图像

python、pdf、pdfminer

我正在尝试使用pdfminer.six从PDF文件中提取图像似乎没有任何关于如何使用Python实现此操作的文档。到目前为止，这就是我所拥有的： import os import pdfminer from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io i

浏览 4提问于2021-08-23得票数 0

回答已采纳

1回答

如何从pdf中提取具有缩进功能的文本？

python、python-3.x、pdfminer

我想从pdf文件中提取文本。但是，当我使用下面的代码进行提取时，返回的文本类似于： section text text text text text text text text text text text text text text text text 但是我想让这个部分使用正常的缩进： Section text text text text text text text text text text text text text text text text 遵循示例： import io from pdfminer.converter impor

浏览 15提问于2019-09-18得票数 2

1回答

如何在pdfminer3中查看pdf中的图像

python、pdfminer

这是我的密码。 from pdfminer3.layout import LAParams from pdfminer3.pdfpage import PDFPage from pdfminer3.pdfinterp import PDFResourceManager from pdfminer3.pdfinterp import PDFPageInterpreter from pdfminer3.converter import PDFPageAggregator from pdfminer3.converter import TextConverter import io resourc

浏览 5提问于2020-03-13得票数 0

回答已采纳

1回答

使用PDFMiner处理单页

python、pdf、extraction、text-extraction、pdfminer

我有一些PDF文档，不能用PyPDF提取文本，只能用PDFMiner提取文本。下面的代码可以很好地从PDF中提取所有文本，它遍历整个文档，然后返回所有文本。是否有一种方法只处理PDF的某些页面？我所有的PDF都是2000-3000长的，我只需要处理第二页。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpa

浏览 3提问于2016-03-08得票数 1

回答已采纳

3回答

用pdfminer从pdf中提取文本提供多份副本

python、pdf、pdfminer

我正在尝试使用PDFMiner (在上找到的代码)从PDF文件中提取文本。除了path/to/pdf之外，我没有更改代码。令人惊讶的是，代码返回同一文档的几份副本。我得到了与其他pdf文件相同的结果。我是否需要通过其他的论点，还是我遗漏了什么？任何帮助都是非常感谢的。以防万一，我提供了代码： from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams f

浏览 12提问于2014-11-05得票数 2

回答已采纳

1回答

Python PDFMIner到CSV

python、csv、pdf、pdfminer

我希望能够将PDF转换为CSV文件，并找到了几个有用的脚本，但作为Python的新手，我有一个问题：在何处指定要打印到的PDF和CSV的文件路径？我使用的是Python2.7.11和PDFMiner 20140328。 import sys from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from pdfminer.converter import XMLConverter, HTMLConverter, TextConver

浏览 2提问于2016-04-28得票数 6

1回答

如何获取导入到Python中的文本并创建CSV文件？

python、csv、pdfminer

你好(提前道歉，编程新手，尽我最大努力) 我的目标是将pdf格式转换成CSV格式。我已经使用PDFMiner将pdf文档导入到Python中，它会将PDF中的所有文本粘贴到Python中。有没有一种简单的方法可以用导入的文本创建CSV文件？从Python中以不同的格式获取这些数据的最好方法是什么？我用来导入PDF的代码如下： import io from pdfminer.converter import TextConverter from pdfminer.pdfinterp import PDFPageInterpreter from pdfminer.pdfinterp impor

浏览 11提问于2021-02-14得票数 0

0回答

从PDF (目录)中提取文本，忽略页面和索引号

python、text-extraction、pdfminer

我正在从PDF中提取文本并将其保存在.csv文件中。下图显示了我试图从PDF中提取的文本：目前，我可以提取文本，但不能去掉表示页码和索引的数字(即文本开头和结尾的数字1、5、1.1、5、1.2等)。下面是我的工作代码(我正在python 3.5上工作)： from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.

浏览 12提问于2018-07-20得票数 1

3回答

使用pdfminer.six从URL打开PDF

python、python-3.x、python-requests、urllib、pdfminer

背景:Python3.7& 使用这里找到的信息：，我有以下代码： import io from pdfminer.converter import TextConverter from pdfminer.pdfinterp import PDFPageInterpreter from pdfminer.pdfinterp import PDFResourceManager from pdfminer.pdfpage import PDFPage def extract_text_from_pdf(pdf_path): resource_manager = PDFResou

浏览 1提问于2020-06-02得票数 3

回答已采纳

5回答

Pdfminer python 3.5

python-3.x、pdf、text、extract、pdfminer

我已经完成了一些教程，但是我无法运行这个代码块，我完成了从StringIO到BytesIO的必要切换(我相信？) 我不知道为什么‘香蕉’什么都不印，我认为错误可能是红鲱鱼？这与我遵循python2.7教程并试图将其翻译成python3有关吗？ errors: File "/Users/foo/PycharmProjects/Try/Pdfminer.py", line 28, in <module> banana = convert("A1.pdf") File "/Users/foo/PycharmProjects/Try/Pd

浏览 3提问于2016-10-04得票数 21

回答已采纳

15回答

如何使用pdfminer作为库

python、pdf、pdfminer

我正在尝试使用从pdf中获取文本数据。我能够使用pdfminer命令行工具pdf2txt.py成功地将这些数据提取到.txt文件中。我现在这样做，然后使用python脚本来清理.txt文件。我想将pdf提取过程合并到脚本中，并为自己节省一步。，但我在任何解决方案上都没有成功。也许这里列出的函数需要再次更新，因为我使用的是较新版本的pdfminer。我尝试过的另一种方法是使用os.system在脚本中调用脚本。这也是不成功的。我使用的是Python版本2.7.1和pdfminer版本20110227。

浏览 9提问于2011-04-20得票数 74

回答已采纳

1回答

PDF到Python中的Word文档

python-2.7、pdf、ms-word

我已经阅读了关于这个的其他堆栈溢出问题，但它不能回答我的问题，所以请投下赞成票。它的2.7版。我想做的就是使用python将PDF转换为Word文档。至少转换为文本，以便我可以复制和粘贴到一个word文档。这就是我到目前为止所拥有的代码。它打印的都是女性性别符号。我的代码是错的吗？我这样做是不是错了？是不是有些PDF就是不能与PDFMiner兼容？除了使用PyPDF2或PDFMiner之外，你还知道有什么其他方法可以实现我将PDF转换为Word的目标吗？ from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpret

浏览 4提问于2015-10-22得票数 1

2回答

使用pdfminer将pdf分隔为多个页面

python、pdfminer

我正在尝试逐页提取pdf，并将结果存储在字典中，如下所示： from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from cStringIO import StringIO import re def convert_pdf_to_txt(path): ps=di

浏览 2提问于2016-07-04得票数 0

1回答

我想用python刮一个印地语(印度兰格语) pdf文件

python、pdf、ocr、pdfminer、pdf-scraping

我编写了python代码，它从PDF文件中抓取所有数据。这里的问题是，一旦被刮掉，单词就失去了语法。如何解决这些问题？我正在附加密码。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from cStringIO import StringIO def convert_

浏览 1提问于2016-03-14得票数 5

回答已采纳

1回答

Pdf Miner返回奇怪的字母/字符

python、python-3.x、pdf、text、pdfminer

我正在使用pdfminer和python 3，我在从pdf中恢复的文本中得到了奇怪的字母。例如，我得到的是signiﬁcant而不是significant (请注意，字母f和I合并为一个)。我不知道为什么会发生这种事。这是我正在使用的代码。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage imp

浏览 31提问于2018-10-18得票数 3

回答已采纳

1回答

在python中Pdf到文本的转换会给出一些pdf的值

python-3.x、pypdf2、pdfminer、pdftotext

我正在尝试将pdf文件转换为python中的文本格式。我设法做到了，但在某些情况下，值的位置不正确。例如，如果段落中间的值在转换后的文本中出现在末尾或没有出现在哪里。有没有人遇到过这种情况？这与我正在处理的pdf类型有关吗？任何帮助或信息都将不胜感激。为了更好地理解，我添加了来自pdf的图像和我的输出。 pdf screenshot output screenshot 我们可以看到文本输出中缺少值600,95。下面是我使用的代码 -代码 from pdfminer.converter import PDFPageAggregator from pdfminer.layout imp

浏览 12提问于2020-10-09得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Python PDFMiner将多个PDF提取为文本文件的循环脚本

相关·内容

如何从合并的PDF文件中提取文本并转换为txt文件？

如何在Python3中使用PDFminer.six？

如何使用python从PDF文件中只提取特定的文本

将PDF转换为文本：“不允许提取文本”

Pdf矿工如何提取图像

如何从pdf中提取具有缩进功能的文本？

如何在pdfminer3中查看pdf中的图像

使用PDFMiner处理单页

用pdfminer从pdf中提取文本提供多份副本

Python PDFMIner到CSV

如何获取导入到Python中的文本并创建CSV文件？

从PDF (目录)中提取文本，忽略页面和索引号

使用pdfminer.six从URL打开PDF

Pdfminer python 3.5

如何使用pdfminer作为库

PDF到Python中的Word文档

使用pdfminer将pdf分隔为多个页面

我想用python刮一个印地语(印度兰格语) pdf文件

Pdf Miner返回奇怪的字母/字符

在python中Pdf到文本的转换会给出一些pdf的值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐