我将(相同的)数据保存为GIF图像文件和PDF文件,并希望将其解析为HTML或XML。这些数据实际上是我校食堂的菜单。这意味着有一个新版本的文件,必须分析每周!通常,文件包含一些页眉和页脚文本,以及一个包含其他数据的表。我阅读了一些关于堆栈溢出的文章,并开始尝试将表数据解析为HTML/XML:
PDF格式
GIF
我在用PDFBox解析PDF文件时得到了最好的结果,但是(因为菜单每周都有变化),它还不够可靠。我收到的HTML包含了更多的,有时更少的“段落”(<p>
),所以我无法对数据进行足够的解析。
因此,我想知道是否有其他方法可做?
发布于 2014-01-29 14:50:05
小菜是从任意PDF中提取CSV/TSV表的JRuby web接口的一个很好的开端。
发布于 2015-04-12 10:41:56
我已经实现了我自己的算法(它的名字是traprange
)来解析pdf文件中的表格数据。
以下是一些pdf样本文件和结果:
访问我在特朗的项目页面
或者我在特朗的文章
发布于 2018-11-21 11:39:24
您可以使用Camelot从PDF中提取表并将其导出到HTML文件中。还支持CSV、Excel和JSON。您可以在:http://camelot-py.readthedocs.io查阅文档。与其他开源表格抽取工具和库相比,它提供了更准确的结果。这是一个比较。
您可以使用以下代码片段继续执行任务:
>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_html('file.html')
免责声明:我是图书馆的作者。
https://stackoverflow.com/questions/10300786
复制相似问题