我的问题主要是:是否有任何ML研究论文将包含一批扫描文件(如银行对账单)的pdf拆分成单独的文档?
我已搜寻过,但并没有在互联网上找到任何有关的研究论文或一般的应用。
我主要感兴趣的是这些文件/应用程序的特性工程,但总体上也对整个方法感兴趣。
发布于 2019-12-10 15:46:02
Esposito、Ferilli、Basile和Mauro的"面向数字文档处理的机器学习:从布局分析到元数据提取“详细介绍了如何创建用于解析包括pdfs在内的数字文档的自定义系统。它提出了一个学习文档中任何结构的广义过程。
发布于 2019-12-10 15:52:17
在大量使用pdf,如文档、银行报表和您希望看到的3次主要会议/研讨会之后,您希望看到的是ICDAR、DocEng和NeuralIPS的文档智能研讨会。
你所寻找的论文不在这里的几率很低,因为这3种可能是最大的文献研究场所。我已经经历了几个月了,我找不到你想要的东西。
根据页面上的文本将页面分类为结束页的简单模型可能有效,但无法保证。
这类课题是机器学习与文献研究的重要组成部分。
https://datascience.stackexchange.com/questions/61490
复制相似问题