首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PDF表格提取

PDF表格提取
EN

Stack Overflow用户
提问于 2012-04-24 15:10:40
回答 8查看 27.4K关注 0票数 12

我将(相同的)数据保存为GIF图像文件和PDF文件,并希望将其解析为HTML或XML。这些数据实际上是我校食堂的菜单。这意味着有一个新版本的文件,必须分析每周!通常,文件包含一些页眉和页脚文本,以及一个包含其他数据的表。我阅读了一些关于堆栈溢出的文章,并开始尝试将表数据解析为HTML/XML:

PDF格式

  • PDFBox = iText (Java)
  • 谷歌文档导入
  • PDF2HTML _~_

GIF

  • Tesseract-OCR

我在用PDFBox解析PDF文件时得到了最好的结果,但是(因为菜单每周都有变化),它还不够可靠。我收到的HTML包含了更多的,有时更少的“段落”(<p>),所以我无法对数据进行足够的解析。

因此,我想知道是否有其他方法可做?

EN

回答 8

Stack Overflow用户

发布于 2014-01-29 14:50:05

小菜是从任意PDF中提取CSV/TSV表的JRuby web接口的一个很好的开端。

票数 10
EN

Stack Overflow用户

发布于 2015-04-12 10:41:56

我已经实现了我自己的算法(它的名字是traprange )来解析pdf文件中的表格数据。

以下是一些pdf样本文件和结果:

  1. 输入文件:sample-1.pdf,结果:sample-1.html
  2. 输入文件:sample-4.pdf,结果:sample-4.html

访问我在特朗的项目页面

或者我在特朗的文章

票数 9
EN

Stack Overflow用户

发布于 2018-11-21 11:39:24

您可以使用Camelot从PDF中提取表并将其导出到HTML文件中。还支持CSV、Excel和JSON。您可以在:http://camelot-py.readthedocs.io查阅文档。与其他开源表格抽取工具和库相比,它提供了更准确的结果。这是一个比较

您可以使用以下代码片段继续执行任务:

代码语言:javascript
运行
复制
>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_html('file.html')

免责声明:我是图书馆的作者。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10300786

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档