我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本,但它们不足以提取表。
发布于 2021-09-21 02:17:09
答案取决于问题是一般性的还是特定于单一形式的。在一般情况下,您的方法是合理的,但是会有可变性。如果您有一个pdf表单,它是在每次迭代时使用不同数据创建的单个表单或报表,请考虑将表单从pdf转换为postscript,然后查看是否可以解析postscript。
有两个实用程序可以这样做: pdf2ps和pdftop各试一次。如果您知道一些postscript,这种方法可能会有好处。幸运的话,所需的字段可能是简单的文本字符串。值得一试。
发布于 2022-03-29 05:05:08
您可以尝试按照这指南从PDF中提取文本、表格和图像。它使用PyPDF
和tabula-py
来完成这项工作,但我不确定您是否能够按顺序提取它,因为您正在对同一个pdf文件进行“多次”提取。
https://stackoverflow.com/questions/69262489
复制相似问题