在repl中使用Python从PDF中提取文本_如何使用Python从PDF中的特定区域提取文本？_如何使用Python从pdf中提取文本？ - 腾讯云开发者社区

pymupdf、pdfplumber、grobid

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从检查到调查与历史和调查作为一个excel文件中的列和相应的数据行。python regex不能满足这个条件，因为每种pdf格式都是不同的，我们需要来自不同pdfs的不同类型的文本。除了这些类型的pdf之外，我还有不同类型的pdfs来处理，我尝试过不同的python库，比如pdfminer、pdfplumber、PyMUPDF、pytesseract、these、GROBID

浏览 20提问于2022-06-30得票数 0

2回答

安装用于PDF文本提取的弹出器

python、pdftotext、poppler

我试图跟随这个博客，尝试从发票pdf文件中提取文本。我的文本提取需要提取发票的特定字段。我尝试过pdfminer，textract，但它们都将文本提取为杂乱无章的文本，之后很难提取文本。我偶然发现了下面的Poppler包下载：看起来像是一个.tar文件。而不是python包。我不确定如何使用这个.tar文件来解压包并在Python中使用它。任何建议，我如何在我的mac上安装它，然后在python中以编程方式使用它来运行一堆pdf文件来提取数据。

浏览 24提问于2020-04-24得票数 2

1回答

如何从pdf文件的图像中提取文本？

apache-tika

我在python应用程序中使用tika从文档中提取文本。一切正常，但它不是从pdf文件中提取的图像。Tika可以从pdf和图像中提取文本，但不能从包含图像的pdf中提取文本。我有点困惑。有没有办法做到这一点？是否需要将PDF文件转换为图像？

浏览 3提问于2018-10-11得票数 1

1回答

如何在Python中从PDF中提取按钮和操作

python、pdf

在我的项目中，我需要在python的PDF中获得一个按钮后面的动作。PDFMiner、PyPDF等都在谈论从pdf中提取文本。我们如何从PDF中提取按钮和其他控件以及它们背后的操作。

浏览 0提问于2019-07-05得票数 1

5回答

使用python从MS word docx文件中逐页提取文本

python、python-3.x、document、extraction、text-extraction

我有一个MS文件，我需要从其中提取文本分页。我尝试过python，但它可以提取整个文本，但不能提取页面。我还将docx转换为pdf，然后尝试文本提取。问题是，在转换之后，docx的页面结构发生了变化。例如，在转换时，字体大小被更改，而docx的一页中的文本内容在pdf中占用了多个页面。我正在寻找一个稳定的解决方案，可以从docx中提取分页文本(而不转换为pdf将更适合我的整个解决方案)。有人能帮我吗？

浏览 9提问于2019-12-18得票数 4

回答已采纳

5回答

使用pdfminer.six从pdf文件中提取文本时出错

python、pdf、windows-10、pdfminer

我正在尝试使用pdfminer.six库(如)从pdf中提取文本，我已经在我的虚拟环境中安装了它。这是我的代码： import pdfminer as miner text = miner.high_level.extract_text('file.pdf') print(text) 但是，当我使用python pdfreader.py执行代码时，会得到以下错误： Traceback (most recent call last): File ".\pdfreader.py", line 9, in <module> text

浏览 12提问于2020-11-09得票数 2

4回答

如何使用python替换/删除pdf中的文本？

python、python-3.x、pdf

我有隐藏部分pdf的代码(只是用一个白色多边形覆盖它)，但问题是，文本仍然是在那里，，如果您仍然可以找到它。我的目标是真正从pdf中删除文本。使用pdfminer，我成功地从pdf中提取了文本，但我不知道是否真的可以用一些空格来“替换”文本。使用python这样的事情可能吗？仅仅提取它是不够的。我需要将文本从PDF中删除。

浏览 1提问于2018-09-15得票数 9

2回答

提取LTFigure对象后面的文本

python、pdf、pdfminer

我正在使用python pdfminer库(参见docs)从pdf文件中提取文本。然而，pdfminer似乎无法提取某些文件中的所有文本，而是提取LTFigure对象。假设从这个对象的位置，它“覆盖”了一些文本，因此这个文本没有被提取出来。 pdf文件和包含从pdf提取信息的代码的简短jupyter笔记本都在我专门创建的Github存储库中，目的是提出这个问题： https://github.com/druskacik/ltfigure-pdfminer 我不是一个pdf文件如何工作的专家，但常识告诉我，如果我可以在浏览器中使用control + f查找文本，它应该是可提取的。我考虑过使

浏览 149提问于2021-01-28得票数 0

回答已采纳

1回答

当PDF包含图像和表格时，在python中从pdf中提取文本

python、pdf、text、extract、pypdf2

我正在尝试使用python从pdf中提取文本。我尝试使用PyPDF2，但似乎只有当pdf是简单的基本文本而不是其他内容时才起作用。是否还有其他方法可以帮助我从PDF中提取文本？

浏览 10提问于2020-03-16得票数 0

2回答

从PDF中提取文本，并将提取的文本保存在Excel或其他地方

pdf、uipath

我不是专业的程序员。我想要一个简单的方法，从pdf中提取文本，并将文本保存到Excel中。我认为Uipath可以使用OCR提取文本。但我不认为这是一个非常可靠的方法。我可以使用Uipath通过一种比OCR更可靠的方式进行文本提取吗？我可以使用Python，R或其他用户友好的软件从pdf中提取文本吗？谢谢!

浏览 16提问于2020-07-13得票数 0

2回答

如何在Python (Mac)中将扫描的PDF转换为可搜索的PDF？例如OCRMYPDF模块

python、python-3.x

我正在用python编写一个程序，可以读取pdf文档，从文档中提取文本，并使用提取的文本重命名文档。首先，扫描的pdf文档是不可搜索的。我想把pdf转换成可搜索的pdf在Python上，而不是使用谷歌文档，Cisdem pdf转换器。我已经读到了ocrmypdf模块，可以用来解决这个问题。但是，由于我的知识有限，我不知道如何编写代码。我期望输出将扫描的pdf转换为可搜索的pdf。

浏览 0提问于2019-08-08得票数 4

1回答

我如何阅读python的pdf？

python、python-2.7、pdf、text-extraction

我如何在python中读取pdf ?我知道一种将它转换为文本的方法，但是我想直接从pdf中读取内容。有人能解释一下python中哪个模块最适合pdf提取吗？

浏览 2提问于2017-08-21得票数 45

1回答

如何像Chrome浏览器那样使用Python从PDF中提取文本？

python、pdf、text-extraction

我正在尝试从pdf文件中提取文本(类似于表单)。目前，我在Chrome上打开文件，选择/复制所有文本，将其粘贴到txt文件中，然后使用Python将其处理为CSV。Chrome让我的数据非常结构化和统一，这样pdf的每一页都会产生类似的文本块，让我可以轻松地处理它。我试图直接从pdf中提取文本，以将其处理为CSV格式，但由于原始pdf的生成方式，我总是得到一些混乱的结果。我尝试过pdfminer和pyPdf2，但当表单在某些字段中缺少值时，结果会变得混乱。也许这是一个泛化的问题，但是，我如何才能在提取过程中得到更结构化的结果？

浏览 35提问于2021-06-16得票数 0

1回答

使用Python从Latex导出的PDF的各个部分提取文本

python、python-3.x、pdf、latex

我有科学研究论文的PDF，这是用乳胶写的。每篇研究论文都有“引言”、“相关工作”等部分，我想分别提取每个部分下的文本。这个PDF在第一页有“摘要”和“简介”两个部分。对于“摘要”部分，我想检索斜体文本。对于“引言”，我希望所有这些段落都在它的部分。如果我有Latex源文件，我可以做一些数据挖掘，并根据\section{}关键字提取文本因此，我在Python3中尝试了一些方法，比如将pdf转换为latex ，但建议的软件要么与我的系统(Ubuntu16.04)不兼容，要么是付费软件。我尝试使用textract，但它没有从PDF中提取部分的选项。有人知道如何从使用Latex制作的

浏览 4提问于2017-09-28得票数 0

3回答

摘录PDF格式的文本(字体大小、类型等)

pdf、fonts、extract、font-size

是否可以从PDF文件中提取有关特定字体/字体大小/字体颜色等的文本？我更喜欢Perl、python或*nix命令行实用程序。我的目标是从PDF文件中提取所有标题，这样我就有了一个包含在一个PDF文件中的文章索引。

浏览 8提问于2013-10-15得票数 4

回答已采纳

1回答

如何避免PyPDF中裁剪部分的文本？

python、pypdf2

我对python非常陌生，我正在做一个ML项目，从PDF(已发布的年度报告)中提取披露信息。PyPDF提取了我的项目所需的信息，但它也包含了我想要删除的文本中的页脚文本。我浏览了堆栈溢出，并找到了一个解决方案，成功地通过PyPDF裁剪出页脚部分，并将文件保存为一个新的pdf。但是，当我在原始代码中运行已裁剪的PDF时，来自页脚的文本仍然包含在提取的文本中。不管怎么说我能克服这一切吗？

浏览 5提问于2022-10-14得票数 1

回答已采纳

11回答

如何在Python 3.7中从pdf中提取文本

python、pdf、python-3.7、pypdf2、pdf-extraction

我正在尝试使用Python从PDF文件中提取文本。我的主要目标是试图创建一个程序，读取银行对账单，并提取其文本，以更新excel文件，以方便地记录每月的支出。现在我只专注于从pdf文件中提取文本，但我不知道如何做到这一点。当前将PDF文件中的文本提取为字符串的最佳和最简单的方法是什么？现在最好使用的库是什么，我该怎么做？我曾尝试使用PyPDF2，但每次尝试使用extractText()从任何页面提取文本时，它都返回空字符串。我尝试过安装textract，但是我得到了错误，因为我想我需要更多的库。 import PyPDF2 pdfFileObj = open("January2

浏览 203提问于2019-04-20得票数 19

回答已采纳

1回答

通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段

python、pdf、machine-learning、text、extract

我有30种不同类型的PDF。我需要提取特定于每个PDF的信息。我需要用python来做这个工作。我能够从一种类型的pdf中提取特定的信息，但需要一个模型，它将识别文件的类型，并自动识别需要提取的关键字，然后检索它们。可以通过编程方式使用python吗？任何帮助都将不胜感激。请注意，并非所有文档都是结构化的。但首先，我们可以假设文档是结构化的。我试过用OpenCV从扫描的图像中提取文本，但结果很糟糕。我已经将整个图像转换为文本，但这不是我要找的。我只是在寻找每个pdf的具体信息。

浏览 2提问于2018-06-29得票数 0

1回答

使用Python仅从PDF中提取特定文本

python、dataframe、pdfminer、pypdf

需要使用python从具有不同PDF结构的发票PDF文件中提取特定的文本，并将输出数据存储到特定的excel列中。所有PDF文件都有不同的结构，但内容值相同。试图解决这个问题，但不能只提取特定的文本值。 PDF文件样本：需要提取发票ID，发行日期，主题，金额从整个PDF文件。到目前为止我使用的脚本： import PyPDF2 import re pdfFileObj = open('test.pdf','rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getP

浏览 8提问于2020-10-04得票数 1

回答已采纳

1回答

有没有办法在Python中提取粗体文本后的句子？

python、pdfplumber

我从python的pdf中提取了一些粗体文本。效果很好。但是我也想提取这个句子，或者在粗体文本之后多一个句子，例如：“蓝天是我们抬头看到的东西。” 我可以提取蓝天的部分。但我无法提取“当我们抬头时看到的”部分。 import pdfplumber with pdfplumber.open('C:/Users/somefile.pdf') as pdf: for i in range(12, 15): text = pdf.pages[i] clean_text = text.filter(lambda obj: obj["o

浏览 22提问于2022-08-31得票数 1

1回答

用python从pdf中提取特定文本

python

是否可以使用python从pdf中提取特定的文本。测试用例:我有一个超过10页的PDF文件，我需要提取特定的文本和与它们相关联的值。示例：用户:value用户id:value。需要提取这些值。我能够阅读所有的页面，我现在想要具体的文本。

浏览 3提问于2020-05-10得票数 0

2回答

如何使用pdfminer.six

python-3.x、pdf、text-extraction

我正在尝试使用Python3.x中的pdfminer从pdf中提取文本。我使用以下命令安装了它 pip3 install pdfminer.six 当我尝试使用下面的命令提取文本时，我得到了一个错误 pdf2txt.py sample.pdf 错误: pdf2txt.py:找不到命令我已经阅读了官方文档，它们显示了我上面遵循的相同步骤，但仍然不起作用。

浏览 102提问于2018-02-08得票数 1

回答已采纳

3回答

用Python将ppt文件转换为pptx

python、python-2.7、powerpoint

有任何方法将.ppt文件转换为.pptx文件. 目标：I需要从.ppt文件中提取表格中的文本(列名为名称、地址、联系电话、电子邮件等)。为此，我遵循了以下方法：我将.ppt文件转换为pdf，然后使用PDFminer从pdf中提取数据。从pdf中提取的文本不被任何分隔符分隔。因此，很难区分表中的名称和其他字段。我正在研究可能的解决办法：将.ppt文件转换为.pptx 解析.pptx文件的xml以获取格式化文本我被困在将文件格式从.ppt转换到.pptx的第一步。在python中，我找不到任何将.ppt文件格式转换为.pptx formt的解决方案。

浏览 3提问于2017-08-14得票数 8

1回答

如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本

python、pdf、text、data-conversion

我正在尝试使用Python3和PyPDF2库将PDF转换为文本文件。但PDF主要是用韩语编写的，所以在处理PDF文本之前，它似乎是用'utf-8‘编码的。但是，无论是使用"open“功能读取PDF文件，还是使用"codecs”功能读取PDF文件，似乎都无法正确提取‘utf-8’编码的文本。你有什么想法可以使用Python3和其他相关的Python库从PDF文件中提取文本吗？提前感谢！ (您可以通过下载示例文件) import PyPDF2 import codecs pdf_file = open('6060273.pdf','rb'

浏览 0提问于2018-12-17得票数 1

1回答

使用python从PDF文件中提取相关文本

python、pandas、dataframe、tesseract

使用python只从整个PDF文件中提取相关文本，并将输出数据存储到Excel的特定列中。我试图解决它，但不能提取特定的文本值。下面是需要提取的示例输出的屏幕截图：我想提取excel.不同列中的发票号、订单号和总价值。到目前为止，我已经尝试过： import pdfplumber pdf = pdfplumber.open('file.pdf') page = pdf.pages[0] text = page.extract_text() print(text) pdf.close() 但没有得到准确的输出。使用上面的脚本！请建议!！

浏览 8提问于2020-09-30得票数 0

2回答

从图像中提取特定文本

python、node.js、image-processing、text

我正在尝试从图像中提取特定的文本(或整个文本，然后解析它)。该图像是用希伯来语语言编写的。我在nodejs中已经尝试过的是在库中使用，但在希伯来语中，它不承认文本很好。我还试着把图像转换成pdf，然后从pdf中解析出来，但在希伯来语中效果不佳。有人试过这么做吗？可能是用python还是节点js？我正在尝试做一些像云视觉，谷歌文本

浏览 4提问于2020-06-29得票数 0

1回答

使用Python解析PDF文件

javascript、python、pdf、pdf.js

(1)有没有办法在pdf文件中搜索文本，并使用Python转到pdf文件中的那个位置？(2)有没有办法突出显示pdf文件中的文本，然后使用Python提取该文本？我试过使用Javascript，它实际上是有效的，但我想尝试pdf.js。任何帮助都将不胜感激。谢谢!

浏览 7提问于2018-08-09得票数 0

回答已采纳

1回答

可以在shell中逐行运行脚本，但完整脚本不返回任何内容。

python、shell

我使用一个从PDF文件中提取文本的脚本。如果我在shell中一次运行一行脚本，它就可以正常工作(即提取的文本在shell窗口中返回)，但是如果我尝试执行整个脚本，则不会返回任何内容。该脚本如下： import PyPDF2 pdfFileObj = open('c:\Python27\meetingminutes.pdf', 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pdfReader.numPages pageObj = pdfReader.getPage(0) pa

浏览 2提问于2015-10-01得票数 1

回答已采纳

1回答

使用python从PDF中提取扫描页面

python、pdf

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf文件执行OCR？

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

分发Python模块- Spark与进程池

python、apache-spark、parallel-processing、pyspark、distribute

我制作了一个从PDF中提取手写文本的Python模块。提取有时会相当慢(每个文件20-30秒)。我有大约100,000个PDF(有些有很多页)，我想在所有这些文件上运行文本提取。本质上是这样的： fileNameList = ['file1.pdf','file2.pdf',...,'file100000.pdf'] for pdf in fileList: text = myModule.extractText(pdf) # Distribute this function # Do stuff with text 我们以前使

浏览 10提问于2018-01-08得票数 0

回答已采纳

2回答

用Python将PDF文件转换为文本文件

python、python-2.7、pdf、text、converter

我已经花了好几天的时间在网上研究如何从pdf文件中获取特定的信息。最终，我能够使用Python从文本文件中获取所有信息(我通过转到PDF文件-> file ->文件问题是如何让Python完成这些任务(打开PDF文件(打开它-非常容易打开(“文件路径”)，点击菜单中的File，然后将文件保存为同一个目录中的文本文件)。为了明确起见，我不需要pdfminer或pypdf库，因为我已经用相同的文件提取了信息(在手动将其转换为txt之后)。

浏览 3提问于2016-07-21得票数 3

回答已采纳

1回答

如何使用python找到并删除pdf中的水印？

python、pdf、watermark

我目前正在使用python删除PDF文件中的水印。例如，我有一个这样的文件：页面中央的绿色形状是水印。我认为它不是以文本形式存储在PDF中的，因为我通过使用边缘浏览器(它可以读取PDF文件)搜索无法找到该文本。此外，我无法通过图像找到水印。我使用PyMuPDF从PDF中提取所有图像，水印(应该出现在每一页上)是找不到的。我用于提取的代码如下： document = fitz.open(self.input) for each_page in document: image_list = each_page.getImageLis

浏览 8提问于2022-08-02得票数 -1

回答已采纳

1回答

将PDF中的文本提取为JSON或XML或其他格式？

json、xml、pdf

我试图从PDF中提取数据，价格，信息和数字(我有超过10000个PDF，所以网站的免费试用将不起作用)。下面是我得到的一个PDF示例：我用Python语言(这类任务的初学者，还有Python语言)和几个包(如PyPDF2、pdfx等等)尝试过，但我只能得到这样的文本使用PyPDF2：所以可以提取价格，数字和信息，但我有不同的pdf格式，所以不可能只使用文本和一些算法来提取信息。我想做什么，这是可能的，因为很多网站都在做这件事，并让人们为它付费。我想以垂直方式读取它，并转换以XML/JSON或简单的dataset格式提取的数据。我想按列阅读文档，而不是逐行阅读

浏览 2提问于2019-01-01得票数 0

2回答

可以在Python中提取带有空格的pdf吗？

python、pypdf、pdftotext

在创建了一个使用java和pdfbox提取pdf的工具之后，我一直在尝试用Python提取pdf。虽然对于相同的pdf，Java实现是成功的，但我一直在努力在python中做同样的事情，因为pdfminer和pypdf和pypdf2都不能逐行提取带有空格的pdf。特别是，出于某种奇怪的原因，pdfminer pdf2txt将pdf拆分为3列，然后逐行读取。我得到的最接近的是使用的实现，不幸的是，它没有保留空格。假设我有两个变量都有数字，我无法以文本形式恢复它们。鉴于此，是否可以在Python中逐行提取带有空格的pdf？

浏览 10提问于2013-06-16得票数 4

2回答

用Camelot解析Python并提取表标题

python、pdfminer、tabula、python-camelot

Camelot是一个非常棒的Python库，可以作为数据框架从pdf文件中提取表。然而，我正在寻找一个解决方案，它也返回表的描述文本，写在表的上方。我用于从pdf中提取表的代码如下： import camelot tables = camelot.read_pdf('test.pdf', pages='all',lattice=True, suppress_stdout = True) 我想提取写在表上的文本，即，如下图所示，表示详情。对我来说最好的方法是什么？感谢你的帮助。谢谢

浏览 0提问于2019-10-01得票数 5

回答已采纳

2回答

iText在安卓系统上的文本提取/阅读

android、pdf、itext

我和iText有点问题。其他人说iText只用于创建PDF？而且它不能从PDF中读取或提取文本。这是真的吗？如果这是真的，那么我还可以选择哪些其他选项来从PDF文件中提取文本并将其保存在变量中或显示在Android设备中？如果iText能够从PDF中提取文本，那么如何提取呢？

浏览 0提问于2012-10-22得票数 2

回答已采纳

1回答

提取pdf内容在python中不起作用。

python、python-3.x、pdf、unicode、ocr

我正在使用python请求库从等urls中收集数百万可公开使用的pdfs。然后我试着提取pdf中的表格，然后用熊猫把这些摘录的文本写进csv。但问题是，这些摘录的文本是混乱或破损的孟加拉语文本，这是没有用的。如何从这些pdfs中正确地提取文本并写入csv。到目前为止我使用的代码- response = requests.get(url,headers=headers) pdf_txt = '' with io.BytesIO(response.content) as open_pdf_file: #global pdf_txt read_pdf = PyPDF

浏览 6提问于2022-07-22得票数 -1

3回答

使用python pdfminer提取整个pdf数据

python、pdf-reader

我正在使用pdfminer通过python从pdf文件中提取数据。我想提取所有存在于pdf中的数据，无论它是图像还是文本或其他什么。我们可以在一行(如果需要的话，也可以是两行，不需要太多工作)中做到这一点。任何帮助都是非常感谢的。提前感谢

浏览 0提问于2013-06-09得票数 4

回答已采纳

2回答

有没有办法提取PDF文档的页眉、页脚和标题页？

python、pdf、text-mining

我想知道是否有包可以从PDF文档中检测和提取页眉和页脚或标题页？我是使用python进行文本挖掘的新手，我想知道，例如，pdfminer.layout可以帮助在pdfs中找到任何文本块吗？

浏览 16提问于2018-01-18得票数 1

回答已采纳

3回答

php中的pdf文本提取器类

php、pdf、text-extraction

有没有任何可用的类，在php中提取所有的文本从pdf文件，以便我可以存储在mysql数据库中。我的pdf有许多元素，如图像，表格，纯文本，表单元素，图表等。到目前为止，我在过去的两天里看到了许多提取文本的类，但没有一个促进完整的文本提取，不是从pdf中提取完整的文本。我想从给定的pdf文件中提取所有文本，即使文本在表中等。有人知道这事吗？:) 非常感谢。祝您有愉快的一天:)

浏览 1提问于2011-06-29得票数 2

回答已采纳

1回答

如何在MediaWiki网站上添加包含全文的PDF文件的引用

mediawiki、mediawiki-extensions

我有一个MediaWiki网站，有大约1000个额外的文件，是在网页目录是自动索引。我希望这些页面出现在MediaWiki索引中。我想出了两种方法：编写一个mediawiki插件，为每个目录创建一个页面，为每个项目创建一个项目符号列表，并提供一个下载对象的链接。编写一个python程序，它使用mediaWiki API为每个项目创建一个mediawiki页面，并包含完整的元数据。然后，我可以提取文本并将提取的文本放在页面上，以及MediaWiki预先格式化的文本。然而，其中一些文档相当长，因此我认为另一种方法是从PDF中提取文本并将其放入MediaWiki索引中。对于多页

浏览 2提问于2019-10-14得票数 0

1回答

使用python从不可Cpyable Pdf中提取文本

python、pdf

我一直在尝试从pdfs中提取文本，我正在使用python的PyPDF2和提取文本，但现在我试图从不可复制的PDFs中提取文本。它会返回空字符串。我正在从这里在线将简单的可复制的PDF转换为不可复制的PDF：https://online-pdf-no-copy.com/ 下面是我的代码： from PyPDF2 import PdfFileReader def get_info(path): with open(path, 'rb') as f: pdf = PdfFileReader(f) if pdf.isEncrypted:

浏览 16提问于2020-01-10得票数 0

2回答

如何使用Python从Pdf导入混合分数？

python、fractions、pdftotext

我是python的新手。我正在尝试使用Python从pdf文件中提取混合分数。但是我不知道我应该使用哪个工具来提取。我的示例pdf只包含一个简单文本的页面。我想用Python提取零件的名称和长度。示例pdf页面的屏幕截图如图片链接Page 1 of Pdf- Screenshot所示。Pdf文件可从以下链接(Sample Pdf)下载编辑1：-更新感谢你推荐Pdfplumber。这是一个很棒的工具。我可以用它来提取信息。虽然在某些情况下，当我提取长度时，我得到的是整数和分母的组合。比方说，如果我有36 1/2的长度(如截图所示)，那么我得到的值是362英寸。 import pdfplum

浏览 57提问于2021-04-07得票数 0

回答已采纳

2回答

如何使用Python从PDF文件中提取图表/表格/图形？

python、pdf、python-3.6、ocr、extract

我搜索了很多，但由于我找不到解决这类问题的方法，因此在同一个问题上发布了一个明确的问题。大多数答案包括图像/文本提取，这是相对容易的。我有一个要求提取表格和图形作为文本(csv)和图像分别从PDF。有没有人能帮我写一个高效的python3.6代码来解决这个问题？到目前为止，我可以使用startmark = b"\xff\xd8“和endmark = b"\xff\xd9”实现提取jpgs，但并不是PDF中的所有表格和图形都是普通的jpgs，因此我的代码无法实现这一点。例如，我想从第11页提取表格，从第12页提取图形作为图像或从以下给定链接可行的东西。该怎么做呢？

浏览 0提问于2019-04-29得票数 7

1回答

检查pdf是否已签署

python、python-3.x、pdf、encryption、signature

我想写一个python脚本来检查一个pdf是否被签署。在环顾四周之后，我发现pyPDF2帮助从pdf文件中提取文本，但我不确定它是否可以用于提取签名细节，如公钥等。我确实读过了一些开源包，比如pyhanko和密码学，但是我对如何做到这一点还有些困惑。我以前从未使用python处理过加密或PDF。你能告诉我如何用最好的方法来执行这个任务吗？谢谢并致以良好的问候，Raghu 我试过使用加密包，但不太确定如何从pdf中提取签名证书。 Adobe提供了PKCS7和CER格式的导出，我想知道如何使用python实现这一点。这是为了对另一个进程进行验证步骤。此外，如果有其他简单和聪明的方法来检查是

浏览 9提问于2022-11-21得票数 0

1回答

水管工错过了原理图中所有表的第一列和最后一行。

python、pdfplumber

我是新来的水管工，我惊讶于它是如何从表格中提取文本的。这是很容易工作的全页表，但在我的情况下，我使用一些拓扑图与一些表格在里面。它无法提取文档中每个表的第一列和最后一行。我试图调整table_settings变量中的几个配置参数，不幸的是，我没有能够获得更好的结果(在我的例子中，如果我使用"text“而不是”line“，原理图中的其余文本被视为一个表)。对此有什么帮助吗？我正在使用Python3.9.8，用于测试的pdf可以在：中找到下面是源代码： import pdfplumber pdf_file = "Schematic.pdf" tables=[] wi

浏览 13提问于2021-11-22得票数 0

回答已采纳

1回答

PDFBox :在提取文本时维护PDF结构

java、pdfbox

我正在尝试从PDF中提取文本，PDF中充满了表格。在某些情况下，列是空的。当我从PDF中提取文本时，emptys列会被跳过并替换为空格，因此，我的正则表达式无法确定在这个位置有一个没有信息的列。更好地理解图像：我们可以看到，在提取的文本中，列并不受尊重。从PDF中提取文本的代码示例： PDFTextStripper reader = new PDFTextStripper(); reader.setSortByPosition(true); reader.setStartPage(page); reader

浏览 2提问于2017-08-23得票数 3

回答已采纳

1回答

读取python中所有类型的文件

python、pdf、pypdf、pdfminer、pypdf2

我试图从python(.pdf，.doc，.docx)中的不同类型的文件中提取信息并转换为.txt，但在处理不同的文件时，我会在不需要的时候获得空间和换行符，以及许多其他问题。我已经尝试了PyPDF2和PDF manager.Please建议我一些东西，我可以用它从文件中提取信息。编辑目前正在寻找可以帮助我从.pdf文件中提取准确文本的东西。我已经尝试了PyPDF，PDFMiner和PDF Manager，我在所有的PDF中都遇到了一些问题。

浏览 3提问于2017-05-25得票数 2

2回答

用桌面的默认应用程序打开jar文件中的PDF文件

java、file、jar

我的计算机科学课程的程序开发已经接近尾声。然而，其中一个要求是在应用程序中有一个用户手册。我将用户手册保存为Eclipse工作区中的PDF格式。它存储在"/Documents/PDF Manual.pdf“下。我最初使用了以下代码： URL url = getClass().getResource( fileSeparator + "Documents" + fileSeparator + "PDF Manual.pdf"); //fileSeparator = '/' on mac, & '\\&#

浏览 9提问于2015-03-02得票数 4

回答已采纳

1回答

如何使用Python从PDF中的特定区域提取文本？

python、python-2.7、pdf、pypdf2

我正在尝试使用Python从PDF中提取文本，并且我已经成功地使用了PyPDF2，如下所示： import PyPDF2 pdfFileObj = open('path', 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getPage(0) pageObj.extractText() 这将从页面中提取所有文本，但我只想从页面左上角的3'x4‘矩形区域中提取文本。我基本上想做类似这样的事情:，但用Python语言这可以由PyPDF2或任何其他Python库来

浏览 13提问于2017-08-21得票数 9