文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用pymupdf从pdf文件中提取表

问如何使用pymupdf从pdf文件中提取表
EN

Stack Overflow用户

提问于 2019-05-16 02:33:43

回答 2查看 2.2K关注 0票数 0

我的工作要求我使用pymupdf从pdf文件中提取表格并导出为csv格式。

pdf

python

回答 2

Stack Overflow用户

发布于 2019-05-16 03:42:34

恐怕你运气不好。PDF格式没有表结构的内部表示，这使得很难提取表进行分析。您必须通过查看数据列的排列位置来推断表的存在。

有一些模块可以为您做这件事:一个是Excalibur。但是pymupdf是将文本提取为文本，这将使您不得不自己进行解析和推断。这是一个相当雄心勃勃的项目。

票数 0

Stack Overflow用户

发布于 2019-09-26 14:51:42

Excalibur是camelot的GUI版本

Installation https://camelot-py.readthedocs.io/en/master/user/install.html

Tutorial https://camelot-py.readthedocs.io/en/master/

这将为您做好这项工作。可以直接导出到csv。默认输出是可以导出到excel或csv的数据帧。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56155676

复制

相似问题

问如何使用pymupdf从pdf文件中提取表
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用pymupdf从pdf文件中提取表EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用pymupdf从pdf文件中提取表
EN