Python仅从PDF文件中提取表的一部分

Python可以使用第三方库如PyPDF2、pdfminer.six或Tabula来从PDF文件中提取表的一部分。

PyPDF2是一个流行的Python库，可以用于处理PDF文件。要从PDF文件中提取表的一部分，可以使用PyPDF2库的getPage()和extractText()方法来定位和提取所需的文本段落。然后，可以使用正则表达式或其他字符串处理方法来解析并提取所需的表格数据。您可以在腾讯云开发者手册中了解有关PyPDF2的更多信息：PyPDF2文档
pdfminer.six是另一个用于处理PDF文件的Python库，它提供了一些用于提取文本和表格数据的功能。您可以使用pdfminer.six的PDFParser、PDFResourceManager和PDFPageInterpreter类来解析和提取PDF文件中的表格数据。腾讯云开发者手册中有关pdfminer.six的更多信息，请参阅：pdfminer.six文档
Tabula是一个专门用于从PDF文件中提取表格数据的Python库。它提供了一个高级的表格提取算法，可以自动检测和提取PDF文件中的表格。您可以使用Tabula库的read_pdf()函数来读取PDF文件，并使用extract_tables()函数来提取所需的表格数据。有关Tabula的更多信息，请参阅腾讯云开发者手册：Tabula文档

这些库在Python中的应用场景包括数据分析、自动化报表生成、文档处理等。它们可以帮助开发人员提取PDF文件中的表格数据，以便进行进一步的处理和分析。

注意：本文仅供参考，请以实际情况和需求为准。

PDFMINER工具pdf2txt抓取数据顺序

我想从pdf文件中提取数据。我正在使用pdfminer工具pdf2txt将pdf转换为纯文本。但是生成的文本文件打乱了数据的顺序(无论是表遇到的地方还是之后)。然后，我尝试将pdf转换为html，但是，遗憾的是，同样的结果。我是python的新手...而且我也不能理解pdfminer库的广泛工作。有没有办法保持数据的顺序？

浏览 3提问于2012-07-07得票数 1

回答已采纳

2回答

如何使用python从pdf文件中提取表名和使用camelot的表？

、、

我试图使用python中的camelot从pdf文件中提取表和表名。虽然我知道如何使用camelot提取表(这非常简单)，但我很难找到关于如何提取表名的任何帮助。其目的是提取这些信息，并显示表及其名称的可视化，以便用户从列表中选择相关的表。我已经尝试过从pdfs中提取表格，然后也提取文本。我在这两个方面都很成功，但没有将表名连接到表中。 def tables_from_pdfs(filespath): pdffiles = glob.glob(os.path.join(filespath, "*.pdf")) print(pdffiles) dicti

浏览 3提问于2019-10-03得票数 3

回答已采纳

1回答

使用python从PDF中提取表中的表

我有PDF文件，在表中有表。请帮助我使用python包(如camelot、pdfplumber等)提取内表。这张图片显示，PDF的第1页内有一个表，第2页内有两个表(要提取的表用橙色颜色突出显示)：

浏览 1提问于2022-08-18得票数 0

1回答

如何使用python在pdf文件中找到发票表的面积坐标？

、、、、

如何使用python在pdf文件中找到发票表的面积坐标？我目前正在使用camelot或tabula从pdf文件中提取表格。然而，我想知道是否有方法提取每个表的面积坐标，以便我可以相应地进行定制

浏览 25提问于2020-08-28得票数 0

2回答

用Camelot解析Python并提取表标题

、、、

Camelot是一个非常棒的Python库，可以作为数据框架从pdf文件中提取表。然而，我正在寻找一个解决方案，它也返回表的描述文本，写在表的上方。我用于从pdf中提取表的代码如下： import camelot tables = camelot.read_pdf('test.pdf', pages='all',lattice=True, suppress_stdout = True) 我想提取写在表上的文本，即，如下图所示，表示详情。对我来说最好的方法是什么？感谢你的帮助。谢谢

浏览 0提问于2019-10-01得票数 5

回答已采纳

1回答

从Python中的pdf文件中提取固定大小和位置表

、、、、

假设我有许多类似于的pdf文件我想提取下表并将其保存为excel文件：我可以做提取表和保存excel文件手动与包。在使用安装pip3之后，我将使用以下方法初始化元数据数据库： $ excalibur 然后使用以下方法启动And服务器： $ excalibur服务器然后转到，开始从PDF中提取表格数据。我想知道是否可以用python脚本自动完成包含、、等包的多个pdf文件，因为表的大小和位置是固定在同一城市的报告中的。您可以从下载其他报表文件。事先非常感谢。

浏览 4提问于2021-04-13得票数 0

回答已采纳

1回答

如何使用python-camelot获取表格坐标？

、、

我试图解析一些pdf文件，以便提取一些关键的information.There是在每个pdf中包含这些信息的一部分的表的数量。因此，我尝试使用camelot来提取表，并获得了很好的结果，但我希望提取每个表的标题，因为我希望为每个表与其标题进行映射。因此，我尝试使用tables[i]._bbox获取每个表的坐标，然后向这些坐标添加一些边距，以检测表标题的区域(它可以在表的顶部、左侧或底部)，如下图所示：title of table on the left title of the table on the top 谁能告诉我如何使用python从pdf中获取包含table标题的红色区域的坐标？

浏览 83提问于2019-09-19得票数 3

回答已采纳

2回答

如何从FileStorage对象中提取文件类型

、、、、

print(file) >> <FileStorage: 'xyz.pdf' ('application/pdf')> 如何从FileStorage对象中提取文件类型(扩展名)？

浏览 6提问于2020-05-26得票数 0

2回答

如何使用camelot从pdf中提取表格？

、、、

我想在python3中使用camelot从pdf中提取所有的表格。 import camelot # PDF file to extract tables from file = "./pdf_file/ooo.pdf" tables = camelot.read_pdf(file) # number of tables extracted print("Total tables extracted:", tables.n) # print the first table as Pandas DataFrame print(tables[0].df) # exp

浏览 29提问于2020-05-27得票数 1

2回答

如何从python中的图像(或pdf文件)中提取姓名和手写数字？

、、、、

我想构建一个项目，当我将一个pdf文件放入其中时，从它中提取，从它中提取打印的名称和手写数字，然后将它们放入CSV文件( excel文件)中。请注意，pdf文件有一个表，在该表中我们在列中找到名称，在另一列中找到手写标记。那么，您能给出一个示例或最好的python框架或引擎 ou吗？请确保在下面的图片中看到示例预先谢谢你

浏览 3提问于2020-02-12得票数 0

2回答

如何在Python中的tabula.read_pdf()函数上修复此错误

、、

我正在尝试使用Python (Pycharm)从PDF文件中提取表。我尝试了以下代码： from tabula import wrapper object = wrapper.read_pdf("C:/Users/Ojasvi/Desktop/sample.pdf") 但是，我得到的错误是： "tabula.errors.JavaNotFoundError: `java` command is not found from this Python process. Please ensure Java is installed and PATH is set fo

浏览 9提问于2019-05-15得票数 2

回答已采纳

2回答

python PDFminer只解析页面的一部分。

、、、

我正在使用模块pdfminer python模块解析一个PDF文档。我只想从这个文档中提取文本。这个过程进行得很顺利，但是，当我提取LTText*对象时，我意识到我并没有得到LTText*对象中的所有文本。它似乎有一个内部缓冲区或类似的东西，导致文本在每个页面中被剪切。我的代码： ... for lt_text_obj in lt_objs: if isinstance(lt_text_obj, LTTextBox) or isinstance(lt_text_obj, LTTextLine): if lt_text_obj._objs:

浏览 0提问于2013-11-07得票数 6

1回答

从pdf文件中读取图像

、、、、

我有一个要求，客户将上传一个pdf文件，其中包含图像/s。我必须读取那个pdf文件，从它们中提取图像，然后将图像保存到db和硬盘中。但我不知道如何使用Python/Django代码从pdf文件中提取图像。是否有从pdf文件中读取和提取图像的python库。提前谢谢。

浏览 2提问于2013-08-09得票数 0

回答已采纳

1回答

pdf2text与Python3.7版本不兼容

、、、

我试图在我的机器上安装Python3.7的pdf2text，但是我得到了一个错误 SyntaxError:调用“print”时缺少括号。你是说print(version)？吗调用“print”时缺少括号。你是说print(version)？吗有没有其他解决方案，我需要pdf2text从一个pdf文件中提取一些非结构化表，并且基于堆栈溢出上的 post的内容，似乎pdf2text与非结构化表提取很好。

浏览 0提问于2019-02-26得票数 0

回答已采纳

1回答

如何使用python从pdf中提取一些数学表达式？

、、、、

我有一个pdf，它有像这样的数学方程我试图从一个pdf文件中提取客观问题，并使用python将它们转换为csv文件，这样每一行表都包含一个问题、每个列中的四个选项和一个正确的选项(因此总共有六列)。但是这个pdf也有那些数学方程，我不能把它们写进csv文件中。是否可以在我的csv文件中写入这些方程，就像它们在pdf文件中一样？

浏览 11提问于2019-12-02得票数 0

回答已采纳

3回答

用Python将ppt文件转换为pptx

、、

有任何方法将.ppt文件转换为.pptx文件. 目标：I需要从.ppt文件中提取表格中的文本(列名为名称、地址、联系电话、电子邮件等)。为此，我遵循了以下方法：我将.ppt文件转换为pdf，然后使用PDFminer从pdf中提取数据。从pdf中提取的文本不被任何分隔符分隔。因此，很难区分表中的名称和其他字段。我正在研究可能的解决办法：将.ppt文件转换为.pptx 解析.pptx文件的xml以获取格式化文本我被困在将文件格式从.ppt转换到.pptx的第一步。在python中，我找不到任何将.ppt文件格式转换为.pptx formt的解决方案。

浏览 3提问于2017-08-14得票数 8

1回答

从PDF文件中提取多个表，并使用python将其转换为dataframe？

、、

我有一个5页的pdf文件，每页有几个表，我需要提取。我需要从每个页面中提取所有的表，并将它们保存为数据框文件，所有这些都使用python 我试了很多方法，但都不能做到，请帮帮忙

浏览 27提问于2021-01-07得票数 0

1回答

用python从pdf文件中提取关键词

、

我有一个pdf文件(链接以下)。我必须从其中提取关键字，也需要在pdf文件中有频率。例如'Java':42, 'inheritance':3。我必须将关键字与他们的权重存储在excel表中。你能告诉我一些python的代码吗？ https://drive.google.com/file/d/1gZCnlhwVMBIE0SugUUxDIgQrfVz-cDQR/view

浏览 0提问于2018-07-17得票数 1

2回答

如何从PDF文件的表格中提取数据？

、、、

我有一个包含表格的PDF文件，格式是这样的：现在，我需要从每一行的特定列中提取数据，以插入到数据库中。如何使用javascript或python提取我想要的列？我已经尝试了手动方式，但这还不够。我希望将原始数据放入一个变量(数组或列表)中。 ==========================================更新：我决定使用python，库的名称是tabula；我使用pip安装它： pip install tabula-py 将pdf传递给库并指定表的页面。我问题中表格的输出看起来神奇地如下所示：

浏览 17提问于2019-08-08得票数 1

2回答

如何使用python将excel文件中的特定表格转换为pdf

、、

在目录中有一个excel文件的列表。输入的是必须转换为pdf的图纸名称列表。因此，我的代码必须打开excel文件，查找特定的excel表，并将该表转换为pdf。有没有人能建议使用哪个库和方法来解决这个问题。如何使用包含所有excel文件中所有所需工作表名称列表的变量作为参数打开所需的excel工作表。谢谢。输入: file1.xls file2.xls file3.xls File1中的工作表:标题、目录、摘要 File2中的工作表:标题、目录、摘要 File3中的工作表:标题、目录、摘要 File1中所需的工作表:标题 File2中所需的工作表:目录 File3中所需的工作表:摘要输出

浏览 136提问于2021-10-13得票数 0

5回答

如何用python中的tabula提取一个pdf文件中存在的多个表？

、、、

如果pdf文件中只有一个表，则可以使用以下代码简单地提取该表 from tabula import read_pdf df = read_pdf(r"C:\Users\Himanshu Poddar\Desktop\pdf_file.pdf") 但是如果在一个pdf文件中有一个以上的表格，我不能提取这些tables.Because，它只提取第一个。

浏览 1提问于2018-04-09得票数 1

1回答

从PDF中获取树的文件(最好使用Python)

、、、、

我想制作一系列文件，其中包含了这个PDF ()中的树。文件的名称将是左边对应的树号(t0、t1等)。我试图使用python提取相关信息和树，但我遇到了麻烦。具体来说，当我尝试将树提取为图像(使用)时，没有出现任何树(大概是因为树不是正确的格式)。然而，当我尝试将其全部提取为文本(如)时，树会丢失它们的所有格式(以及它们的一些信息，我认为)。我怎样才能从这个PDF中获取我想要的文件呢？能用Python完成吗？还有更简单的方法吗？或者，我获得PDF的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#s NP#0#2#r#s VP##3#l# V##4#l#h V##4

浏览 0提问于2018-09-20得票数 0

回答已采纳

1回答

包含图像文件的blob存储中的Azure搜索中的内容提取问题

、

我的要求是搜索思想中的“内容内图像”和图像内容内部pdf。我选择了blob存储器来保存所有的文件。I由pdf、xml、text、png、jpeg等文件类型组成。我应该能够搜索图片中的内容(甚至图像在pdf中)。我看到了microsoft文档，blob存储不支持提取图像文件的内容。我遇到了"AzureSearch_SkipContent“选项，它允许搜索图像(不受支持的)文件的元数据。我的问题是，搜索认为图像文件的内容不可能仅仅是blob存储，或者在下面的所有存储选项中都是不可能的。·Azure SQL数据库·Server上的关系数据-- Azure VM·Azure Cosmo

浏览 0提问于2018-04-20得票数 0

回答已采纳

2回答

安装用于PDF文本提取的弹出器

、、

我试图跟随这个博客，尝试从发票pdf文件中提取文本。我的文本提取需要提取发票的特定字段。我尝试过pdfminer，textract，但它们都将文本提取为杂乱无章的文本，之后很难提取文本。我偶然发现了下面的Poppler包下载：看起来像是一个.tar文件。而不是python包。我不确定如何使用这个.tar文件来解压包并在Python中使用它。任何建议，我如何在我的mac上安装它，然后在python中以编程方式使用它来运行一堆pdf文件来提取数据。

浏览 24提问于2020-04-24得票数 2

1回答

如何将数据的源名称通过管道传输到Python脚本？

、

我使用Apache从URL中提取PDF内容，并将Tika发现的结果传递给Python脚本。我能够很好地获得内容，但我也希望能够得到我正在解析的URL。例如，运行： java -jar /usr/local/tika-1.7/tika-app/target/tika-app-1.7.jar -J -t https://somewebsite.com/a_pdf_document.pdf | ./my_script.py 通行证 [{"Content-Length":"1121070","Content-Type":"application/

浏览 4提问于2015-02-05得票数 0

回答已采纳

2回答

如何使用Python基于pdf文件生成问题生成器

、、、

我有很多这样的数学练习表。 (这是一页pdf的图片) 因此，我想制作一个Python程序来接受这些工作表中的问题，随机，并将它们保存到一个pdf文件中。我可以很容易地从pdf中取出全文，但我不知道如何区分问题，更大的问题是要评估的表达式，因为它们是方程的图像，而不是乳胶状的，这是唯一的问题，我将处理其他任何事情(例如，将问题保存到pdf中，等等)。注意:我不是要求代码本身，而是要求提取问题的提示/想法。谢谢你的努力。

浏览 4提问于2021-11-20得票数 1

2回答

如何仅提取lsof输出中的pid列和路径名列？

、、、、

$ sudo lsof -u t | grep -i "\.pdf" evince 1788 t 37r REG 8,4 176328 134478 /home/t/some/path1/white space/string1 + string2 string3.pdf evince 3737 t 36r REG 8,4 1252636 6692680 /home/t/some/path2/white space/string5 string

浏览 0提问于2019-02-16得票数 1

2回答

如何使用PDFplumber只提取pdf文件中没有表格的文本？

、、、

我想使用NLP模块处理一些pdf文件，然后从所有现有的表中清除这些文件。这是使用pdfplumber提取表的代码 import pdfplumber pdf = pdfplumber.open("file.pdf") page = pdf.pages[1] table=page.extract_table() 但是我想反转操作，只提取文本

浏览 4提问于2021-02-21得票数 1

1回答

如何读取一些pdf文件中除表格以外的所有内容？

、

我想使用python读取pdf文件，但在阅读时，我不想将表格包含在pdf文件中。我只想要除了那些表格之外的所有其他内容。我尝试过像PyPDF2和Tabula这样的库，但我只是找到了提取表格或读取包括表格在内的内容的方法。我也不想创建一个新文件并在其中添加页面。准确地说，除了表的内容之外，所有的内容都应该是strings的list格式。

浏览 26提问于2019-09-02得票数 0

1回答

使用Python解析PDF文件

、、、

(1)有没有办法在pdf文件中搜索文本，并使用Python转到pdf文件中的那个位置？(2)有没有办法突出显示pdf文件中的文本，然后使用Python提取该文本？我试过使用Javascript，它实际上是有效的，但我想尝试pdf.js。任何帮助都将不胜感激。谢谢!

浏览 7提问于2018-08-09得票数 0

回答已采纳

1回答

如何从PDF文件中的表中提取多个熊猫数据，并将它们存储为Python中的CSV？

、、、

我有一个食谱PDF文件，它由各种表组成，这些表描述了我正在使用的一个数据集中使用的变量。由于实际数据由我需要查找的值组成，因此需要从本食谱中的所有表中创建多个CSV输出文件。例如，在这个PDF文件的第15页，我们有一个表如下所示，我需要从中提取熊猫数据，以便我可以将它保存为CSV文件供以后使用。我不关心这些表中的“总计”，因为我只需要value和label字段。我试图通过在Python中使用camelot库来解决这个问题- import camelot # try extracting table from 1 of the pages tables = camelot.read_p

浏览 12提问于2021-12-08得票数 0

1回答

在python中从pdf中提取流

、、、、

如何从包含该流的pdf文件中提取该流的一部分(名为BLABLABLA)？ <</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/P

浏览 4提问于2009-01-09得票数 1

回答已采纳

1回答

在Excel中，如何从嵌入链接下载文档并将其全部保存到本地

、、

我有一个excel电子表格，其中包含各种MS word和PDF文件的链接在我们的Sharepoint网站上。这些链接在一个列中。我正在从Sharepoint提取数据以刻录到DVD。将每个文档下载到本地，将它们收集在一起，并将excel中的链接更改为指向本地文件的最简单方法是什么？然后，可以将更改后的excel工作表和文档文件夹刻录到DVD。excel工作表成为文档的类似和索引。

浏览 0提问于2011-02-14得票数 1

回答已采纳

1回答

是否有一种方法可以搜索特定关键字的pdf并显示与该关键字相关联的值？

、

假设我得到了几个关键字，而这些关键字都在PDF文件中。是否有方法提取与关键字相关的值？我试过以下方法- 我使用pdfminer读取PDF文件并将其转换为文本文件。在这一步之后，我能够提取表数据(使用tabula包中的area参数)，但是如何搜索与关键字关联的值呢？我有两个问题- 表结构没有被保留，来自表的有意义的数据(在PDF中)没有以正确的方式显示在文本文件中。一些消息来源说，PDF格式的表格结构无法保留。那么，是否有一种方法能够以一种有意义的方式阅读故事内容呢？由于问题1，我无法提取与关键字关联的值。有些答案建议使用OCR，但是如何才能读取值呢？一些人还建议使用机器学

浏览 1提问于2019-01-07得票数 0

2回答

如何使用.html打开和读取pdf (原为Python3 )文件

、、、、

我需要在python3中打开这个文件：在这里，我必须阅读它，并提取数据表。我已经找了好几个小时了，但似乎什么都没有用。我对抓取/解析很陌生，这是我第一次关注PDF的文件处理。谢谢你的帮助！

浏览 3提问于2015-07-08得票数 0

回答已采纳

1回答

如何在纯Python中从PDF中提取图像？

、、、、

我正在开发一个服务，其中我现在需要从PDF文件中提取图像。在Linux命令行中，我可以使用之类的提取图像 pdfimages my_file.pdf /tmp/image 因为我使用的是Python Flask框架，并且我想在Heroku上运行我的服务，所以我想使用纯Python (或者可以在Flask系统中运行在Heroku上的任何库)来提取图像。有人知道如何用纯Python从pdf中提取图片吗？我更喜欢开源解决方案，但如果需要的话，我愿意为它付费(只要它在Heroku上由我自己控制)。

浏览 4提问于2014-11-28得票数 4

1回答

如何在Java中从PDF文件中提取表格数据

、、

我对从PDF文件中提取数据有疑问。我有一个PDF文件，其中有多个可用的数据表。我想从require表内容中提取数据。如何从PDF文件中提取表格数据？如何使用iText/PDFBox执行此操作？

浏览 2提问于2018-02-13得票数 0

1回答

是否可以从web应用程序自动测试动态生成的PDF文件？

、

我看到从PDF文件中提取文本和图像并对其进行测试是可能的。我真正想要的是自动测试PDF文件中具有不确定数据的一些表，这将由应用程序生成。生成的PDF文件也可以是包含从多个表中提取的数据的报告。

浏览 0提问于2017-11-14得票数 0

3回答

摘录PDF格式的文本(字体大小、类型等)

、、、

是否可以从PDF文件中提取有关特定字体/字体大小/字体颜色等的文本？我更喜欢Perl、python或*nix命令行实用程序。我的目标是从PDF文件中提取所有标题，这样我就有了一个包含在一个PDF文件中的文章索引。

浏览 8提问于2013-10-15得票数 4

回答已采纳

1回答

如何使用Tika或任何其他库从PDF文件中提取数据并以CSV/excel格式存储

、、、

我想要提取PDF文件中的数据，并以CSV/Excel格式表示，我知道可以使用java.But中的Tika库来实现，我确实找到了如何将数据提取为简单文本的解决方案，但我想知道如何将其存储在excel表中。如果有人以前做过这样的工作，那么请帮助我。

浏览 5提问于2016-03-26得票数 0

回答已采纳

1回答

使用python从PDF中提取扫描页面

、

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf文件执行OCR？

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

如何从pdf文件的图像中提取文本？

我在python应用程序中使用tika从文档中提取文本。一切正常，但它不是从pdf文件中提取的图像。Tika可以从pdf和图像中提取文本，但不能从包含图像的pdf中提取文本。我有点困惑。有没有办法做到这一点？是否需要将PDF文件转换为图像？

浏览 3提问于2018-10-11得票数 1

1回答

如何使用aws从文档中提取服务和.net导出CSV表格

、、

我试图使用AWS的DetectDocument (异步)从PDF文件中提取表格和数据，使用的是C#/.NET。我在数据提取方面很成功，但我不知道如何使用AnalyzeDocument提取PDF中的表格并导出到CSV文件中。阅读亚马逊网络服务的文档，在Python中找到CSV解压缩，而不是在.NET中。请参阅链接：- https://docs.aws.amazon.com/textract/latest/dg/examples-export-table-csv.html 尝试查看Python代码并复制.NET，但没有成功。

浏览 21提问于2019-09-03得票数 1

回答已采纳

1回答

从pdf中提取带下划线的文本

、、、

我正在尝试从表格中的PDF中提取数据。我能够使用pandas提取数据并读取数据。最近数据发生了变化，现在我只提取那些在PDF格式的表格中带下划线的值。表结构相同。但是要提取的数据已经被underlined.bi尝试了OCR，tessaract来提取数据，但是没有运气，因为他们提取了所有的数据。但我只需要带下划线的数据。如果有用的话，下划线总是红色的。我使用Python作为编程语言。

浏览 38提问于2019-04-25得票数 0

1回答

如何使用pytesseract从pdf文件的图像中提取文本

、、

我正在尝试使用下面的代码从pdf文件的图像中提取文本。PDF文件是合同文档，是合同的扫描副本。pdf文件中的所有页面都是图像。当我尝试使用下面的代码提取数据时，我得到一个错误，说它无法读取文件/无法识别图像文件。 try: import Image except ImportError: from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

浏览 3提问于2018-09-27得票数 0

1回答

从pdf中提取当前页面的文本(使用MuPDF)

、、、

我已经编写了代码从pdf中提取文本，它工作得很好。问题是，即使我在一个不同的页面上，只有第一页的文本正在被提取。这是我正在使用的代码- public void extracttext() { TextWord[][] textWord = core.textLines(mDocView.getDisplayedViewIndex()); int z, j; for (z = 0; z < textWord.length; z++) { for (j = 0; j < textWord[z].length; j++) { word = word + te

浏览 9提问于2015-10-28得票数 0

回答已采纳

1回答

使用Python仅从PDF中提取特定文本

、、、

需要使用python从具有不同PDF结构的发票PDF文件中提取特定的文本，并将输出数据存储到特定的excel列中。所有PDF文件都有不同的结构，但内容值相同。试图解决这个问题，但不能只提取特定的文本值。 PDF文件样本：需要提取发票ID，发行日期，主题，金额从整个PDF文件。到目前为止我使用的脚本： import PyPDF2 import re pdfFileObj = open('test.pdf','rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getP

浏览 8提问于2020-10-04得票数 1

回答已采纳

1回答

Python抓取一个非结构化的PDF

、、、

我们从供应商那里得到每周一次的软件版本，供应商为我们提供PDF版本说明。注释中包含了很多无关的内容，但最终我们需要手动地将这些注释中的信息复制/粘贴到一个汇合页面中。理想情况下，我希望能够编写一个python应用程序，以便能够从PDF中抓取某些部分。结构大致如下(粗体部分是我想要提取的部分)： IntroductionNew特征 2.1。新特性1 描述 2.2 新特性2 描述。。。 2.x) descriptionDefect修复新特性X 描述带缺陷descriptions的表在本例中，文档的其余部分与此无关。我设法让它导入文件并提取(全部)文本，但我真的不知道如何只提取第2节的

浏览 1提问于2020-08-31得票数 2

回答已采纳

1回答

水管工错过了原理图中所有表的第一列和最后一行。

、

我是新来的水管工，我惊讶于它是如何从表格中提取文本的。这是很容易工作的全页表，但在我的情况下，我使用一些拓扑图与一些表格在里面。它无法提取文档中每个表的第一列和最后一行。我试图调整table_settings变量中的几个配置参数，不幸的是，我没有能够获得更好的结果(在我的例子中，如果我使用"text“而不是”line“，原理图中的其余文本被视为一个表)。对此有什么帮助吗？我正在使用Python3.9.8，用于测试的pdf可以在：中找到下面是源代码： import pdfplumber pdf_file = "Schematic.pdf" tables=[] wi

浏览 13提问于2021-11-22得票数 0

回答已采纳

1回答

使用python从pdfs中提取特定文本

、、

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从检查到调查与历史和调查作为一个excel文件中的列和相应的数据行。python regex不能满足这个条件，因为每种pdf格式都是不同的，我们需要来自不同pdfs的不同类型的文本。除了这些类型的pdf之外，我还有不同类型的pdfs来处理，我尝试过不同的python库，比如pdfminer、pdfplumber、PyMUPDF、pytesseract、these、GROBID

浏览 20提问于2022-06-30得票数 0