我一直试图拉出嵌入在pdf格式的年度报告中的财务报表,并使用python将其导出为excel/CSV格式,但我遇到了一些问题: 1.特定的财务报表可以出现在报告的任何页面上。如果我要处理成百上千的pdf,我将不得不指定页码,这需要很多时间。有没有办法让刮刀知道确切的报表在哪里? 2.有些报表跨越多页,但刮掉pdf后的最终结果并不是我想要的3.不同的年度报告有不同的财务报表格式。有没有办法处理它们并将它们更改为特定的标准格式?
如果有人做过这样的事情,并能分享例子,我也会很感激。
另外,我正在使用python,使用tabula和Camelot
发布于 2019-12-18 06:35:01
我遇到过一个类似的情况,问题是从pdf中提取特定的表单信息(姓名、出生日期等)。我使用带有pytesseract
的tesseract open source software
对文件进行光学字符识别。因为我不需要整个pdf,但需要它们的特定信息,所以我设计了一个算法来查找信息:在我的例子中,我使用了简单的启发式(特定字段、特定行号和其他领域特定的东西),但您也可以使用机器学习方法并训练一个分类器,它可以找到所需的文本部分。您也可以使用特定于领域的启发式方法,因为我确信财务报表有特殊的词汇表或一些文本标记来指示其开始/结束。我希望我至少能给你一些解决这个问题的方法。
附注:使用tesseract,你还可以处理多页pdf。3) -机器学习方法需要一些样本来学习财务报表可能看起来是什么样子的良好概括。
https://stackoverflow.com/questions/59382641
复制相似问题