在python中将pdf文件转换为文本？我也用过pypdf2和pdfminer，它们都不能正常工作

python、pdf

import fitzdoc = fitz.open(file) for page in doc

浏览 7提问于2021-04-24得票数 0

2回答

可以在Python中提取带有空格的pdf吗？

python、pypdf、pdftotext

在创建了一个使用java和pdfbox提取pdf的工具之后，我一直在尝试用Python提取pdf。虽然对于相同的pdf，Java实现是成功的，但我一直在努力在python中做同样的事情，因为pdfminer和pypdf和pypdf2都不能逐行提取带有空格的pdf。特别是，出于某种奇怪的原因，<

浏览 10提问于2013-06-16得票数 4

5回答

如何使用Python中的PDFMiner获取PDF文件的总页数？

python、pdfminer

在PyPDF 2中，pdfreader.getNumPages()给出了一个PDF文件的总页数。如何使用获得这个

浏览 6提问于2017-08-23得票数 5

回答已采纳

6回答

使用python中的PDFMiner从PDF文件中提取文本？

python、python-3.x、python-2.7、text-extraction、pdfminer

我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例。看起来，PDFMiner更新了它们的API，我发现的所有相关示例都包含过时的代码(类和方法已经更改)。我发现，使从PDF文件中提取文本的任务变得更容易的库使用了旧的PDFMiner语法，因此我不知道如何做

浏览 11提问于2014-10-21得票数 112

回答已采纳

1回答

有没有用RTL语言从PDF中很好地提取文本的python包？

python、pdf、text-extraction、text-alignment、persian

我曾经为PDF文件使用过著名的python包，比如PDFminer、PyMuPDF、PyPDF2等等。但是他们都不能正确地从PDF文件中提取文本，这些文件是用从右到左语言(波斯语、阿拉伯语)编写的。例如：doc = fitz.open("*/path/to/file.pdf") txt =

浏览 1提问于2018-07-25得票数 4

3回答

不创建文件将pdf转换为文本

python、pdf、text

我想从一个网站下载pdf文件和文字工作。但是，我不想创建一个pdf文件，然后将其转换为文本。我使用python请求。有什么方法可以直接在下面的代码之后得到文本吗？

浏览 1提问于2017-11-12得票数 0

回答已采纳

1回答

使用Python突出显示PDF中的文本

python、pdf、search、pypdf、pdfminer

我正在为我的PDF数据语料库定制搜索引擎。有没有办法在PDF

浏览 0提问于2016-10-27得票数 16

3回答

用于读取PDF文件的Python

python、pdf

我发现很多帖子都提出了阅读PDF的解决方案。我想一个字一个字地阅读PDF文件，并对它做一些处理。人们推荐pdfMiner，它可以将整个PDF文件转换成文本文件。但我想要的是一个字一个字地读PDF。

浏览 2提问于2011-05-10得票数 11

回答已采纳

1回答

如何从PDF转换为TXT而没有意外的换行符？

python、python-3.x、pdf、pypdf2、pdfminer

我正在尝试转换一个非常干净的PDF文件到txt文件使用python。我试过使用pyPDF2和PDFMiner，它们在文本识别方面都工作得很好。然而，由于在PDF中的行是换行的，提取的.txt文件在末尾有意外的换行符:例如，第1行："is an account of the Elder

浏览 8提问于2021-05-26得票数 0

1回答

如何用Python从PDF文件中读取简单的文本？

python、python-3.x、pdf、text

需要解析一个PDF文件，以便只提取最初的文本行，并且已经查找了不同的Python包来完成这项工作，但是没有任何结果。试过的：，它给出了不同的终

浏览 7提问于2020-01-24得票数 7

7回答

从PDF提取中去掉了空格，并解释了奇怪的单词

python、pdf、unicode、pypdf

使用下面的代码片段，我尝试从 PDF文件中提取文本数据。import pyPdf # Load PDF into pyPDF # Iterate pages for i in range(0, pdf.getNumPages()):

浏览 7提问于2012-06-19得票数 11

回答已采纳

3回答

将PDF数据抓取到Excel 绝对初学者

python、pdf、pdfminer、pypdf2、pdfrw

对我来说，这是蟒蛇的第一天。我过去曾用VBA、Java和Swift编写过代码，但我在网上编写pdf刮刀的指南时遇到了特别困难。基本信息在python中创建一些内容，允许我将PDF</e

浏览 4提问于2017-06-12得票数 2

1回答

读取PDF表单文件并返回可填充的字段坐标和字段名称

python、python-3.x、pdf、pdf-form、pdfrw

我有一个PDF文件，它本质上是一个表单。我需要返回可填充的位置；要填充的字段、它们的页码以及它们的坐标，我可以在其中放置一个边界框。我遵循了各种方法来处理这个问题，但事实证明，使用PDF是非常困难的。有关PDF文件的详细信息：pdf = PdfReader('RED-46808(Short).pdf</em

浏览 3提问于2020-02-26得票数 0

2回答

无法使我的脚本以所需格式打印输出

python、python-3.x、web-scraping、pypdf2

我正在尝试从pdf文件中提取特定部分的文本。我使用了PyPDF2库来完成这个任务。然而，当我超出下面的脚本，我可以看到，我想要获取的内容是打印在控制台笨拙。到目前为止，我已经写到：import PyPDF2 URL = 'http://www.ct.gov/hix/lib/hix&#x

浏览 0提问于2019-08-04得票数 2

回答已采纳

11回答

如何在Python* 3.7中从pdf中提取文本*

python、pdf、python-3.7、pypdf2、pdf-extraction

我正在尝试使用Python从PDF文件中提取文本。我的主要目标是试图创建一个程序，读取银行对账单，并提取其文本，以更新excel文件，以方便地记录每月的支出。现在我只专注于从pdf文件中提取文本，但我不知道如何做到这一点。当前将PDF文件中的文本提取为字符串的最佳和最简单的方法是什么？现在最好使用的库是什么，

浏览 203提问于2019-04-20得票数 19

回答已采纳

1回答

将PDF转换为文本: Adobe与Python库

python、pdf、pdfminer、adobe-reader

我有一个PDF，我试图转换为文本，以进一步处理。 PDF的结构是稳定的，但很棘手，因为它还包含一些元素和图表，有时也用作在特定位置编写的文本的背景。因此，我想提取尽可能多的文本。我首先尝试使用Adobe函数将PDF保存为文本，这样可以获得很好的结果，但不允许这个过程完全自动化。至少我不知道如何通过命令行与Ado

浏览 6提问于2021-06-24得票数 0

回答已采纳

3回答

pdfminer上的警告

python、pdf、python-3.x、pdfminer

我已经在堆栈溢出中找到并(略微)修改了这个脚本，以便它能够在python 3.3上工作：它工作得很好，但是我似乎有两个问题：警告:根:未定义: PDFCIDFont: basefont=‘LKOELN+Win

浏览 1提问于2015-04-21得票数 6

回答已采纳

2回答

提取LTFigure对象后面的文本

python、pdf、pdfminer

我正在使用python pdfminer库(参见docs)从pdf文件中提取文本。然而，pdfminer似乎无法提取某些文件中的所有文本，而是提取LTFigure对象。假设从这个对象的位置，它“覆盖”了一些文本，因此这个文本没有被提取出来。pdf文件和包含从pdf提取信息的代码的简短jupyter笔记本都在我

浏览 149提问于2021-01-28得票数 0

回答已采纳

21回答

如何从PDF文件中提取文本？

python、pdf

我正在尝试使用Python提取包含在文件中的文本。我使用的是模块，并具有以下脚本：pdf_file = open('sample.pdf')number_of_pages = read_pdf.getNumPages() page = read_pdf</e

浏览 326提问于2016-01-17得票数 266

2回答

PyPDF2忽略内容，仅获取水印

python、pypdf2

我有成千上万的PDF文件，像。import PyPDF2 for filename in

浏览 0提问于2018-06-14得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可以在Python中提取带有空格的pdf吗？

如何使用Python中的PDFMiner获取PDF文件的总页数？

使用python中的PDFMiner从PDF文件中提取文本？

有没有用RTL语言从PDF中很好地提取文本的python包？

不创建文件将pdf转换为文本

使用Python突出显示PDF中的文本

用于读取PDF文件的Python

如何从PDF转换为TXT而没有意外的换行符？

如何用Python从PDF文件中读取简单的文本？

从PDF提取中去掉了空格，并解释了奇怪的单词

将PDF数据抓取到Excel 绝对初学者

读取PDF表单文件并返回可填充的字段坐标和字段名称

无法使我的脚本以所需格式打印输出

如何在Python* 3.7中从pdf中提取文本*

将PDF转换为文本: Adobe与Python库

pdfminer上的警告

提取LTFigure对象后面的文本

如何从PDF文件中提取文本？

PyPDF2忽略内容，仅获取水印

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐