PDF表格提取_从PDF中提取表格_PDF提取中缺少表格布局信息 - 腾讯云开发者社区

、、

我对从PDF文件中提取数据有疑问。我有一个PDF文件，其中有多个可用的数据表。我想从require表内容中提取数据。如何使用iText/PDFBox执行此操作？

浏览 2提问于2018-02-13得票数 0

2回答

从PDF中提取表格的tabula vs camelot

、、、

我需要从pdf中提取表格，这些表格可以是任何类型的，多个标题，垂直标题，水平标题等。示例PDF： import tabulafor t in tab:print(t, "\n=========================\n") 卡梅洛特

浏览 3提问于2020-04-23得票数 4

回答已采纳

3回答

从pdf文件中获取数据

、

我有一张pdf文件中的表格。有x，y，z列。我只想要x列。有可能使用python吗？如果是，怎么做？然后我想要画x和y。我该怎么做(使用表中的数据)

浏览 23提问于2022-04-14得票数 -1

1回答

我们应该使用什么python库来从PDF中提取包含复杂标题的表？

、、、、

我尝试使用很多库来从PDF中提取表格，比如: camelot，tabula，PDFPlumber，PDFTabExtract…但是他们不会给出一个好的结果。使用camelot，我不能有一个适用于我PDF中所有页面的脚本。使用Tabula时，当表格有一个旋转的文本标题时，我得到了一个令人困惑的数据帧。有没有什么办法可以让我在pdf中转换任何不同格式的表格？我知道我找不到一个通用的解决方案，但至少能给出一个好的结果。我应该使用OCR吗？你有什么推荐的？我真的很感谢任何结

浏览 13提问于2019-06-10得票数 0

2回答

如何用PDFMiner从pdf中提取表格？

、、、

我正在尝试从pdf文档中的一些表格中提取信息。'fp = open(path, 'rb')parser = PDFParser(fp)# Supply现在我可以

浏览 0提问于2017-09-14得票数 2

2回答

将数据从PDF导入到SQL Server

、、

我有一个PDF，其中有以下格式的行：我已经将PDF转换为Excel，但它没有给出正确的列结构。如何将数据从PDF导入到SQL Server？或者，我如何在C#.Net中实现它？

浏览 1提问于2014-09-15得票数 0

1回答

将PDF中的文本提取为JSON或XML或其他格式？

、、

我试图从PDF中提取数据，价格，信息和数字(我有超过10000个PDF，所以网站的免费试用将不起作用)。下面是我得到的一个PDF示例：我用Python语言(这类任务的初学者，还有Python语言)和几个包(如PyPDF2、pdfx等等)尝试过，但我只能得到这样的文本所以可以提取价格，数字和信息，但我有不同的pdf格式，所以不可能只使用文本和一些算法来提取信息。我想以垂直方式读取它，并转换以XML/JSON或简单的dat

浏览 2提问于2019-01-01得票数 0

1回答

如何提取pdf格式的表列数据并存储在变量python中

、、、、

我有3个表(图像粘贴)，所有3个表(有相同的列)看起来都一样，我希望在变量中存储3个表的地址列(黄色)的数据。

浏览 8提问于2022-02-16得票数 -1

1回答

将pdf表导出到excel

、、

如何用c#和asp.net将pdf表导出到excel？如果有的话，你能给我一个示例代码片段吗？

浏览 0提问于2010-03-12得票数 0

8回答

PDF表格提取

、、

我将(相同的)数据保存为GIF图像文件和PDF文件，并希望将其解析为HTML或XML。这些数据实际上是我校食堂的菜单。这意味着有一个新版本的文件，必须分析每周！我阅读了一些关于堆栈溢出的文章，并开始尝试将表数据解析为HTML/XML：我在用PDFBox解析PDF文件时得到了最好的结果，但是(因为菜单每周都有变化)，它还不够可靠。

浏览 10提问于2012-04-24得票数 12

1回答

有没有什么方法可以用UiPath从冗长的PDF文件中提取表格？

、、、

我需要写一个过程，从一个有20-25页的冗长的PDF中提取几个表使用UiPath。这里我面临的问题是每月需要更改的页数。

浏览 76提问于2021-06-30得票数 0

1回答

有没有办法使用Adobe阅读器类型库从pdf文件中读取表数据(解析

、、、

我有一个包含一些表结构数据的pdf文件。我已经谷歌了很多，甚至不能得到的答案，如何从C#格式的pdf文件读取表格数据的代码。或我在stackoverflow上看到了很多问题，但我没有得到一个确切的答案。请帮帮我。

浏览 1提问于2012-03-06得票数 3

1回答

如何提取PDF年度报告的叙述部分以进行文本分析？

报告以PDF格式提供。提前感谢！

浏览 0提问于2020-11-11得票数 1

1回答

pdfplumber extract_text函数也可以从表格中提取文本。只想提取表外的文本

、、

我有一个包含文本和表格的pdf。我想将它们都提取出来，但是当我使用extract_text函数时，它也会提取表中的内容。我只想提取表外的文本，并且可以使用extract_tables函数提取该表。我测试了一个只包含表格的pdf，但仍然使用extract_tables函数提取我想要提取的表格内容。

浏览 232提问于2021-10-01得票数 0

1回答

根据pdf_reference_1-7，ToUnicode CMap比编码有更大的优先级，但是这里有一个相反的文件，我该怎么办？

、

原产地代码：(037)TjBaseEncoding: WinAnsiEncoding根据ToUnicode CMap，CID 31被映射到'3‘，这是错误的。/CIDInit /ProcSet findresource beginbegincmap<< /Registry (Adobe)/CMapName /Adobe-Identity-

浏览 1提问于2019-07-01得票数 1

回答已采纳

2回答

使用Perl从PDF中提取图像/文本

、、

我正在尝试使用Perl从PDF文件中提取文本/图像/表格。有没有一种方法可以使用Perl模块从PDF中提取文本/图像/表格？

浏览 0提问于2016-04-27得票数 2

2回答

水管工认不出桌面巨蟒

、、

我使用Pdf管道工提取第2页第3节中的表格(通常)。但它只适用于一些pdf，而另一些则不起作用。对于失败的pdf文件，它似乎Pdf管道工阅读按钮表，而不是我想要的表格。工作的pdf连结：import pdfplumber pdf = pdfplumber.open("/Users/chueckingmok/Desk

浏览 10提问于2020-07-20得票数 3

1回答