我的工作要求我使用pymupdf
从pdf文件中提取表格并导出为csv格式。
发布于 2019-05-16 03:42:34
恐怕你运气不好。PDF格式没有表结构的内部表示,这使得很难提取表进行分析。您必须通过查看数据列的排列位置来推断表的存在。
有一些模块可以为您做这件事:一个是Excalibur。但是pymupdf
是将文本提取为文本,这将使您不得不自己进行解析和推断。这是一个相当雄心勃勃的项目。
发布于 2019-09-26 14:51:42
Excalibur是camelot的GUI版本
Installation https://camelot-py.readthedocs.io/en/master/user/install.html
Tutorial https://camelot-py.readthedocs.io/en/master/
这将为您做好这项工作。可以直接导出到csv。默认输出是可以导出到excel或csv的数据帧。
https://stackoverflow.com/questions/56155676
复制相似问题