从不带垂直线的PDF表格中提取表格_从PDF中提取表格_使用坐标从PDF中提取表格 - 腾讯云开发者社区

python、pandas、dataframe、pdfplumber

我正在使用pdfplumber从pdf中提取表格。但是，正在使用的表没有可见的垂直线分隔内容，因此提取的数据被分成3行和1列。 ? 我想把上面的表格排成13行。 import pdfplumber import pandas as pd import numpy as np with pdfplumber.open('test.pdf') as pdf: page = pdf.pages[0] tables = page.extract_tables() print(tables) 从文档中，我不能理解是否有特定的表设置可以应用。我试了一些，但没有用

浏览 67提问于2021-08-21得票数 0

2回答

从没有任何网格线的表格中提取数据，从扫描的文档图像中提取边框

python、image-processing、ocr、data-extraction、document-layout-analysis

使用camelot和tabula从数字PDF中提取表数据非常简单。但是，当表没有边框和内部网格时，解决方案不适用于文档页面的扫描图像。我一直在尝试使用OpenCV生成垂直线和水平线。但是，由于扫描图像的旋转角度很小，因此很难采用这种方法。我们如何利用OpenCV为包含表格数据(以及文本段落)的扫描文档页生成网格(水平和垂直线)和边框？如果这是可行的，如何取消扫描图像的旋转角度？

浏览 8提问于2019-12-24得票数 6

2回答

从不带垂直线的PDF表格中提取表格

pdf、tabula、python-camelot

我想从如下图所示的PDF文件中提取表格： ? PDF文件包含文本，并且不是扫描的图像。我一直在尝试使用Camelot，但没有成功。lattice风格不起作用，因为没有垂直线，并且stream风格不能正确地分隔行。我使用了row_tol，但是因为行的高度不同，所以它并不适用于所有行。有没有一种方法可以使用lattice方法，但要考虑垂直线的列分隔符？或者，是否有其他方法可以解压该表？

浏览 40提问于2019-10-04得票数 1

2回答

Pdf下标表垂直线

r、markdown

可以在pdf标记表中的列之间画一条垂直线吗？我要把每一栏分开，做一张这样的表格：

浏览 4提问于2016-02-15得票数 2

回答已采纳

1回答

获取PDF中嵌入的表数

r、tidyverse

下面的代码从PDF中提取表格。 install.packages("tabulizer"); install.packages("tidyverse") library(tabulizer); library(tidyverse) n_tables <- extract_tables("filename.pdf") %>% length() 然而，这需要永远做到这一点。我们是否可以绕过实际的表格提取步骤，直接使用tabulizer或任何其他R包从pdf中获取表格计数？

浏览 3提问于2018-08-22得票数 0

2回答

如何使用camelot从pdf中提取表格？

python、csv、pdf、python-camelot

我想在python3中使用camelot从pdf中提取所有的表格。 import camelot # PDF file to extract tables from file = "./pdf_file/ooo.pdf" tables = camelot.read_pdf(file) # number of tables extracted print("Total tables extracted:", tables.n) # print the first table as Pandas DataFrame print(tables[0].df) # exp

浏览 29提问于2020-05-27得票数 1

1回答

表未被识别

python、pandas、tabula、python-camelot

import pandas as pd from tabula import read_pdf FileName="Filepath" DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True) print DF3 import pandas as pd import camelot FileName="Filepath" tables = camelot.read_pdf(FileName,pages='1-en

浏览 10提问于2019-02-28得票数 0

1回答

如何在PHP中从PDF表单中提取字段值

php、forms、class、pdf

我们正在开发基于PHP和MySQL的应用程序。我们分发一份PDF格式的登记表。填写表格后，用户将上传PDF表格到我们的应用程序注册。我们希望从PHP中提取PDF格式的注册数据，并将这些数据保存到数据库中。有人能指出PHP类从PDF表单中提取字段值吗？

浏览 3提问于2011-09-14得票数 10

2回答

使用Perl从PDF中提取图像/文本

perl、pdf、perl-module

我正在尝试使用Perl从PDF文件中提取文本/图像/表格。我尝试使用，它不是以文本形式提取的，而是以其他格式提取的。有没有一种方法可以使用Perl模块从PDF中提取文本/图像/表格？

浏览 0提问于2016-04-27得票数 2

4回答

如何使用Python从PDF中提取表作为文本？

python、pdf、pdf-parsing

我有一个PDF，其中包含表格，文字和一些图像。我想从PDF文件中的任何位置提取表格。现在正在手动从页面中查找表。从那里，我将捕获该页面并保存到另一个PDF中。 import PyPDF2 PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is stored pfr = PyPDF2.PdfFileReader(open(PDFfilename, "rb")) #PdfFileReader object pg4 = pfr.getPage(126) #e

浏览 4提问于2017-11-28得票数 47

回答已采纳

2回答

pdf2json npm包没有提取段落中的数据，有没有其他的npm？

javascript、node.js、npm

我尝试用pdf2json npm软件包从pdf中提取数据，但它没有提取段落中的数据。我有一个pdf文件，其中包含表格，副词和图表在它，我想提取原始数据作为一个文本文件。是否有其他选项可以使用节点js从段落中的pdf中提取数据。

浏览 2提问于2022-09-19得票数 0

1回答

如何在Rapidminer中遍历ExampleSets？

text-mining、rapidminer

我正在尝试从pdf中提取数据，而不需要表格中的数据。我使用了“读取PDF表格”，它将每个表格从pdf中抽取为一个ExampleSet。因此，输出是ExampleSets的ioo对象集合。我尝试了不同的“循环”操作符从这个ioo对象集合中提取文本(从上面的步骤中)，但是操作符似乎只提取了ioo对象集合中的第一个ExampleSet。有人能建议如何遍历ioo对象集合中的所有ExampleSets吗？注意:由于所有的ExampleSets都是不同的类型，所以我无法添加或加入它们。

浏览 0提问于2019-07-08得票数 0

2回答

没有光学字符识别的结构化数据的PDF_Extraction

c#、automation、automationanywhere

我一直在尝试从pdf文件中提取数据，包括在表格中使用C#.My，目标是在没有任何第三方库和它的许可证或or的情况下提取这些数据，同时在不丢失其结构的情况下提取数据。

浏览 10提问于2020-02-13得票数 1

1回答

Python读取pdf文件

python-3.x、jupyter-notebook

如何使用jupyter实验室从pdf文件中读取和提取表格？一个典型的pdf文件与文本之间的文字字幕和表格。我需要编码来提取特定标题下的表格，并清理一些不需要的文本，比如页码。有哪些编码可以做到这一点？

浏览 3提问于2022-09-19得票数 -1

3回答

Tabula-py用于无边框表格提取

python-3.x、pdftotext、tabula

有没有人可以建议我如何使用python/java程序从PDF中提取表格数据，用于pdf文件中的以下无边框表格？

浏览 3提问于2018-07-17得票数 2

1回答

浏览pdf文件以找到特定页面，并从python图像中提取表格数据。

python、python-3.x、dataframe、tabular、image-extraction

我遇到了一个任务，它要求我从pdf文件中的图像中提取表格数据，通过python代码将格式整齐的数据转换成数据。需要处理的文件有几个，所有文件中的相关页可能有不同的页码，因此解决这个问题的步骤顺序(我的假设)是：浏览pdf的相关部分。提取表格数据的图像从图像中提取数据，格式化并转换为数据。一些谷歌搜索结果，我找到了库的pdf文本提取，表格提取和更多的模块化解决方案。我希望在这方面提供一些帮助。我应该用什么包裹？我的方法正确吗？对于类似的问题，我可以获得对任何有用代码片段的引用吗？

浏览 3提问于2021-12-15得票数 -1

2回答

使用Adobe API提取PDF内容

java、pdf、adobe

我正在尝试读取PDF文件的内容，该文件由多个表组成。使用Java和Adobe API，如果所有单元格都有一行内容，我就能够提取表格中的内容。当单元格有多行时，问题就出现了，这会导致提取的内容移动到下一行，从而导致与表头不对齐。有没有什么方法可以从PDF中按原样提取内容，同时保持表格格式与在PDF中显示的方式相同？我目前正在使用\t转义字符来提取数据。

浏览 56提问于2015-02-11得票数 2

1回答

为什么垂直线坐标变化？

python、opencv、contour

我正在尝试使用openCV和Azure从表中提取文本。其目标是提取文本列wise。因此，要执行的第一步是检测图像(表)中的垂直线。现在，使用这些垂直线的坐标作为极端边界，我们确定了这些直线之间的文本。从而获得基于垂直线滤波器的文本。尽管脚本运行良好，但我观察到一种场景，即对于一种特定类型(类型A)的表，行坐标不恰当地出现。因此，在调试之后，我们注意到问题在于表的标题部分(仅用于类型A)。因此，当我们删除(裁剪图像)表的标题部分(类型A)时，垂直线坐标是合适的。坐标的格式为(x，y，w，h)。X和y是垂直线的最顶端。W是线的宽度。(在垂直线中，它几乎是最大的2像素)。H是垂直线的高度。

浏览 9提问于2020-05-07得票数 1

回答已采纳

1回答

pdfplumber可以为我扫描的pdf提取表格吗？

python、pdf、data-extraction、historical-db、pdfplumber

(我知道pdfplumber主要是针对计算机生成的PDF。然而，在我花几天时间从扫描的PDF文件中手动输入数据之前，我想我应该问问pdfplumber是否能以某种方式帮助我。) 我的问题是：我已经扫描了历史书籍中的PDF文件。示例：现在，我正在尝试从扫描的PDF中提取表格(示例中右下角的表格)。我第一次用pdfplumber解压表格的尝试没有成功。例如： with pdfplumber.open('test.pdf') as pdf: page = pdf.pages[0] tables = page.extract_tables() print(tables) 返回

浏览 9提问于2021-11-18得票数 0

2回答

使用Python进行PDF解析-提取格式化文本和纯文本

python、pdf、parsing、text-extraction、information-extraction

我正在寻找一个PDF库，将允许我从PDF文件中提取文本。我看过PyPDF，它可以很好地从PDF文档中提取文本。我想从PDF文档中提取文本，不包括任何表格和特殊格式。有没有这样的图书馆呢？

浏览 57提问于2009-12-05得票数 82

回答已采纳

1回答

将PDF电子表格数据提取到Python数据结构中

python、pdf、extract

我有一些PDF电子表格，我想从每个表格中提取数据，并将其存储在类似于字符串的2d列表中；本质上是从PDF中以对象的形式重新创建表格/电子表格，我可以在我的代码中索引和使用它。要实现这样的目标，PDFMiner是我的最佳选择吗？如果从表格/电子表格中提取数据能够以某种方式基于单元格而不是寻找空格，那就更好了，因为经常会发生表格在不同位置有空单元格的情况。

浏览 0提问于2013-07-18得票数 1

回答已采纳

2回答

有没有可能在pdf中添加垂直线到用R knitr::kable生成的表格中？

r、knitr、vertical-alignment、kable

我想生成一个带有knitr::kable的表格，在边框和某些列之间有垂直线。有办法做到这一点吗？我的输出文档是pdf。谢谢!

浏览 0提问于2019-06-17得票数 7

2回答

获取分析表单结果API返回错误代码3003

microsoft-cognitive、error-code、form-recognizer

我使用表单标签工具来训练我的模型。我已经得到了modelID，成功地运行了分析表单API，但是当调用get Analyse result时，我得到了错误代码： 3003“光学字符识别提取错误:错误的响应代码: FailedToDownloadImage。消息:无法从输入URL..下载图像..” 我还没有在这5张用于训练目的的图片上测试过这个模型。取而代之的是，我使用了3个全新的文档。你知道我怎么才能让它工作吗？这是我分析过的表格(pdf)

浏览 21提问于2020-03-01得票数 0

2回答

如何在java中从pdf文件中提取结构化信息

java、pdf

我需要从pdf文件中提取表格，我知道它不是以表格格式存储的，但我想用java从pdf中读取学生成绩，如果有人知道的话请帮助....谢谢

浏览 0提问于2011-05-14得票数 2

1回答

从pdf中提取带下划线的文本

python、pandas、pdf、ocr

我正在尝试从表格中的PDF中提取数据。我能够使用pandas提取数据并读取数据。最近数据发生了变化，现在我只提取那些在PDF格式的表格中带下划线的值。表结构相同。但是要提取的数据已经被underlined.bi尝试了OCR，tessaract来提取数据，但是没有运气，因为他们提取了所有的数据。但我只需要带下划线的数据。如果有用的话，下划线总是红色的。我使用Python作为编程语言。

浏览 38提问于2019-04-25得票数 0

1回答

如何在Java中从PDF文件中提取表格数据

java、itext、pdfbox

我对从PDF文件中提取数据有疑问。我有一个PDF文件，其中有多个可用的数据表。我想从require表内容中提取数据。如何从PDF文件中提取表格数据？如何使用iText/PDFBox执行此操作？

浏览 2提问于2018-02-13得票数 0

2回答

Camelot -检测表中的超链接

python、pdf、python-camelot

我使用从PDF文件中提取表格。虽然这很好，但它只提取文本，而不提取嵌入在表中的超链接。是否有一种方法可以使用Camelot或类似的包来提取表中嵌入的表格文本和超链接？谢谢!

浏览 9提问于2022-12-02得票数 1

1回答

如何将编码文本转换为正文(不使用编码创建的特殊字符)

python、encoding、utf-8、nlp

我将从一系列PDF文件中提取文本来进行主题建模。从PdF文件中提取文本后，我将把每个PDF文件的文本保存到一个.txt文件或.doc文件中。为此，我遇到了一个错误，即我应该添加.encode('utf-8')来将提取的文本保存到.txt文件中。所以，我添加了txt = str(txt.encode('utf-8'))。问题是读取.txt文件，当我读取.txt文件时，由于UTF-8，它们有特殊字符，我不知道如何才能没有这些字符的正文。我申请了解码，但它不起作用。我应用了另一种方法来避免保存为.txt格式，我打算将提取的文本保存在数据框中，但我发现最初的几个页面

浏览 21提问于2021-06-30得票数 1

回答已采纳

4回答

使用Zend_Pdf创建表的最简单方法

php、zend-framework

使用Zend_Pdf创建表的最简单方法是什么？到目前为止，我实现了具有水平线和垂直线的表格。对于表没有其他的解决方案吗？谢谢。

浏览 4提问于2010-07-19得票数 3

回答已采纳

2回答

如何在itextSharp中检测表启动？

pdf、csv、itextsharp、pdf-reader、pdf-parsing

我正在尝试将pdf转换为csv文件。pdf文件具有表格格式的数据，第一行为标题。我已经可以从单元格中提取文本，比较表格中文本的基线，并检测换行符，但我需要比较表格边框来检测表格的开始。我不知道如何检测和比较PDF中的线条。有谁可以帮我？谢谢！

浏览 2提问于2013-04-02得票数 3

回答已采纳

2回答

使用java从pdf中识别和提取表格

pdf、itext、pdfbox、java

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。到目前为止我所做的是：- 我使用iText java来读取和提取。使用的代码如下： PdfTextExtractor.getTextFromPage 但是它只是以文本的形式返回数据。没有得到任何线索，以确定哪些表格存在于pdf中，以及如何从该表中提取数据。我也使用过PDFBox java，但它也解决不了我的问题。我还跟踪了这个堆栈溢出链接：- ，但它没

浏览 12提问于2017-03-31得票数 1

2回答

PDF提取时忽略表格

java、pdf、pdfbox、text-extraction

我正在尝试用Java制作一个文本处理应用程序，它需要文本作为输入。现在，我从用户指定的PDF文件中提取此输入。我正在使用PdfBox进行文本提取。我遇到的问题是，PDF文件可能包含表格、方程式和特殊符号，所以PdfBox提取的文本在很多地方都包含垃圾。由于这个原因，我的文本处理应用程序无法给出它的最佳结果。我想知道PDF是否有特定的表格格式，这样我就可以到达根级别，并在提取时排除它们。此外，在许多情况下，提取的文本包含呈现为“？”的未知字符。虽然在实际的PDF中，它们看起来是普通的字母表。我也尝试过其他库- IText，但效果并不理想。简而言之，我想要的是从PDF文件中提取简单的句子，排除所有

浏览 2提问于2012-03-27得票数 0

1回答

PDFBox :在提取文本时维护PDF结构

java、pdfbox

我正在尝试从PDF中提取文本，PDF中充满了表格。在某些情况下，列是空的。当我从PDF中提取文本时，emptys列会被跳过并替换为空格，因此，我的正则表达式无法确定在这个位置有一个没有信息的列。更好地理解图像：我们可以看到，在提取的文本中，列并不受尊重。从PDF中提取文本的代码示例： PDFTextStripper reader = new PDFTextStripper(); reader.setSortByPosition(true); reader.setStartPage(page); reader

浏览 2提问于2017-08-23得票数 3

回答已采纳

1回答

如何使用aws从文档中提取服务和.net导出CSV表格

.net、amazon-web-services、amazon-textract

我试图使用AWS的DetectDocument (异步)从PDF文件中提取表格和数据，使用的是C#/.NET。我在数据提取方面很成功，但我不知道如何使用AnalyzeDocument提取PDF中的表格并导出到CSV文件中。阅读亚马逊网络服务的文档，在Python中找到CSV解压缩，而不是在.NET中。请参阅链接：- https://docs.aws.amazon.com/textract/latest/dg/examples-export-table-csv.html 尝试查看Python代码并复制.NET，但没有成功。

浏览 21提问于2019-09-03得票数 1

回答已采纳

2回答

如何使用python从pdf文件中提取表名和使用camelot的表？

python、python-3.x、python-camelot

我试图使用python中的camelot从pdf文件中提取表和表名。虽然我知道如何使用camelot提取表(这非常简单)，但我很难找到关于如何提取表名的任何帮助。其目的是提取这些信息，并显示表及其名称的可视化，以便用户从列表中选择相关的表。我已经尝试过从pdfs中提取表格，然后也提取文本。我在这两个方面都很成功，但没有将表名连接到表中。 def tables_from_pdfs(filespath): pdffiles = glob.glob(os.path.join(filespath, "*.pdf")) print(pdffiles) dicti

浏览 3提问于2019-10-03得票数 3

回答已采纳

1回答

如何使用Automation Anywhere从pdf中提取表格数据并将其存储在csv/excel中？

pdf、rpa、automationanywhere

我想将表格数据从pdf提取到excel/csv。如何使用Automation Anywhere执行此操作？请在下面找到pdf文档中的样表。 ?

浏览 21提问于2019-10-17得票数 0

回答已采纳

3回答

php中的pdf文本提取器类

php、pdf、text-extraction

有没有任何可用的类，在php中提取所有的文本从pdf文件，以便我可以存储在mysql数据库中。我的pdf有许多元素，如图像，表格，纯文本，表单元素，图表等。到目前为止，我在过去的两天里看到了许多提取文本的类，但没有一个促进完整的文本提取，不是从pdf中提取完整的文本。我想从给定的pdf文件中提取所有文本，即使文本在表中等。有人知道这事吗？:) 非常感谢。祝您有愉快的一天:)

浏览 1提问于2011-06-29得票数 2

回答已采纳

3回答

是否将表格从pdf导出到excel？

如何通过C#编程只将表格内容导出到excel文件中？我目前正在使用PDFNET SDK从PDF中提取所有内容，但无法将表格作为表格结构读取

浏览 3提问于2011-08-03得票数 1

2回答

使用Azure表单识别器提取PDF表格数据

python、python-3.x、azure、azure-form-recognizer

我正在工作的发票处理项目使用Azure从识别器。所有发票都是PDF格式的。我正在使用一个自定义的表单识别器与标签。我可以从PDF中提取一些数据，如发票编号、发票日期、金额等，但我想使用Azure表单识别器从pdf中提取表格数据，但它没有正确读取表。我已经标记了我需要的单元格，当表中的行数增加时，它正确地读取列，但是它无法将每一行的值彼此分开，并将整个列作为单个值返回。我试图提供更多的示例，但它仍然未能检测到正确的表。是否有办法使用Azure表单识别器正确地从PDF中提取表数据？扫描表是我们的应用程序的基本要求，它将决定我们是否使用Azure表单识别器作为应用程序的基础。请查看下面的PD

浏览 10提问于2020-09-15得票数 0

2回答

从表格单元格中提取文本

pdf、itextsharp

我有一份pdf文件。pdf包含一个表格。表格包含许多单元格(>100)。我知道表中每个单元格的确切位置(x，y)和尺寸(w，h)。我需要使用itextsharp从单元格中提取文本。使用PdfReaderContentParser + FilteredTextRenderListener (使用像这样的代码)，我可以提取文本，但我需要为每个单元格运行整个过程。我的pdf有很多单元格，程序需要太多时间才能运行。有没有办法从“矩形”列表中提取文本？我需要知道每个矩形的文本。我正在寻找类似PdfBox的PDFTextStripperByArea (您可以根据需要定义任意多个区域，并使用.get

浏览 4提问于2013-11-18得票数 0

2回答

如何使用Python从PDF文件中提取图表/表格/图形？

python、pdf、python-3.6、ocr、extract

我搜索了很多，但由于我找不到解决这类问题的方法，因此在同一个问题上发布了一个明确的问题。大多数答案包括图像/文本提取，这是相对容易的。我有一个要求提取表格和图形作为文本(csv)和图像分别从PDF。有没有人能帮我写一个高效的python3.6代码来解决这个问题？到目前为止，我可以使用startmark = b"\xff\xd8“和endmark = b"\xff\xd9”实现提取jpgs，但并不是PDF中的所有表格和图形都是普通的jpgs，因此我的代码无法实现这一点。例如，我想从第11页提取表格，从第12页提取图形作为图像或从以下给定链接可行的东西。该怎么做呢？

浏览 0提问于2019-04-29得票数 7

1回答

使用Camelot从此PDF中提取数据时，没有找到表并合并列文本。

python、pdf-parsing、python-camelot

当我试图从附加的PDF中提取表格时，我会得到一个UserWarning: No tables found on page-1。但是，当我查看提取的数据时，一些列文本被合并到一个列中。“ 我使用来解析这些PDF 复制步骤：camelot --output m27.csv --format csv stream m27.pdf 下面是我正试图解析的PDF链接：

浏览 0提问于2018-11-09得票数 0

回答已采纳

2回答

用Python提取PDF文件的文本和表

python、pdf、ocr、pypdf2、pdfplumber

我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本，但它们不足以提取表。一种解决方案是使用Azure表单识别器布局模型，但是当我们有文本和表的混合时，它就失败了，特别是当表是某种文本格式并且它们将表和文本的内容混合在一起时(请参见Azure Form Recognizer代码)。我也尝试过pypdf2和pdfplumber；下面是pypdf2的代码：导入PyPDF2 data_path =“os.listdir/to/pdf/files”text = [] for fp in os.listdir(data_path)：pdfFileObj =

浏览 8提问于2021-09-21得票数 1

1回答

使用python从pdf文件中提取表格数据

python-3.x、pdf、data-extraction

我试着用python从pdf文件中提取数据，我试着用camelot和tabula做同样的事情，但结果不够准确。有没有办法获得pdf表格中的数据？

浏览 30提问于2019-12-12得票数 0

2回答

从我试图提取的PDF文档中省略页面

python、pdf、tabula、pdf-extraction

我试图用tabula-py从多页PDF中提取表格，虽然PDF的某些页面上的表被完美地提取出来，但是-一些页面被完全省略了。遗漏似乎是随机的，并且不遵循PDF上任何可见的视觉特性(因为每一页看起来相同)，因此表格省略了第1页、提取的第2页、省略的第3和第4页、提取的第5页、省略的第6页、提取的第8和9页、省略的10、提取的11等等。我有macOS塞拉利昂10.12.6和Python 3.6.3 :：Anaconda自定义(64-bit)。我尝试过将PDF分成更短的部分，甚至是一个寻呼机，但是不管我尝试了什么，省略的页面似乎都不可能提取出来。我已经阅读了相关文档，并在Tabula-py Git

浏览 3提问于2018-07-29得票数 3

1回答

Powershell Get-儿童从配置文件文件夹中提取用户名

powershell、glob

我有存储漫游用户配置文件的驱动器： U:\Users\john.doe U:\Users\john.wick U:\Users\john.smith 我需要检查用户是否在其配置文件中存储了带有*.pdf扩展名的文件。 $a = Get-ChildItem "U:\users\" -Include *.pdf -Recurse | select FullName foreach ($b in $a){ Write-Output $b } 输出 U:\Users\john.wick\desktop\file.pdf U:\Users\john.wick\documents\

浏览 4提问于2022-03-30得票数 0

回答已采纳

1回答

如何使用java代码中的pdf2Dom库从pdf中获取html文档？

java、pdfbox

我试图从PDF中提取表格数据，并开始，算法的第一步是将PDF转换为html文档。如何使用pdf2Dom库将PDF转换为html

浏览 15提问于2017-12-04得票数 0

2回答

解压缩PDF表格，Python3，tabula-py

python、python-3.x、pdf

正在尝试使用Python 3.6从PDF中提取表格。似乎pyPDF2失败了，pdfminer与3.x不兼容。我找到了tabula的python包装器。 import tabula file_list = get_pdf_list() text = tabula.read_pdf(file_list[0]) print(text) tabula.convert_into(file_list[0], "test.json", ouput_format="json") read_pdf和convert_into都返回空结果。PyPDF2也有同样的问题。运行时没有错

浏览 1提问于2017-04-20得票数 4

1回答

pdfplumber extract_text函数也可以从表格中提取文本。只想提取表外的文本

python、pdf、pdfplumber

我有一个包含文本和表格的pdf。我想将它们都提取出来，但是当我使用extract_text函数时，它也会提取表中的内容。我只想提取表外的文本，并且可以使用extract_tables函数提取该表。我测试了一个只包含表格的pdf，但仍然使用extract_tables函数提取我想要提取的表格内容。

浏览 232提问于2021-10-01得票数 0

6回答

基于OpenCV的水平线检测

image、opencv、image-processing、computer-vision、hough-transform

我试图从来自“文档”的图像中找到水平线和垂直线。这些文档是从合同中扫描出来的页面，因此这些行看起来就像您在表格或合同块中看到的那样。我一直在试着用OpenCV做这份工作。OpenCV中的霍夫变换实现似乎对这项工作很有用，但我找不到任何参数组合，可以让它清晰地找到垂直线和水平线。我尝试了边缘检测和不边缘检测。不走运。如果有人做过类似的事情，我很想知道是怎么做的。这里是我在OpenCV中试验HoughP之前和之后的图像。这是我能做的最好的了，所以现在我想知道是否有其他类型的转换可以使用，它可以让我可靠地找到水平线和垂直线(最好也是虚线)。我知道这个问题是可以解决的，因为我有Nuance和A

浏览 3提问于2011-08-29得票数 32

回答已采纳