文章/答案/技术大牛

发布

社区首页 >问答首页 >拆分包含一批扫描文档的pdf

问拆分包含一批扫描文档的pdf
EN

Data Science用户

提问于 2019-10-09 13:08:50

回答 2查看 496关注 0票数 3

我的问题主要是:是否有任何ML研究论文将包含一批扫描文件(如银行对账单)的pdf拆分成单独的文档？

我已搜寻过，但并没有在互联网上找到任何有关的研究论文或一般的应用。

我主要感兴趣的是这些文件/应用程序的特性工程，但总体上也对整个方法感兴趣。

machine-learning

classification

image-segmentation

回答 2

Data Science用户

发布于 2019-12-10 15:46:02

Esposito、Ferilli、Basile和Mauro的"面向数字文档处理的机器学习:从布局分析到元数据提取“详细介绍了如何创建用于解析包括pdfs在内的数字文档的自定义系统。它提出了一个学习文档中任何结构的广义过程。

票数 2

Data Science用户

发布于 2019-12-10 15:52:17

在大量使用pdf，如文档、银行报表和您希望看到的3次主要会议/研讨会之后，您希望看到的是ICDAR、DocEng和NeuralIPS的文档智能研讨会。

你所寻找的论文不在这里的几率很低，因为这3种可能是最大的文献研究场所。我已经经历了几个月了，我找不到你想要的东西。

根据页面上的文本将页面分类为结束页的简单模型可能有效，但无法保证。

这类课题是机器学习与文献研究的重要组成部分。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/61490

复制

相似问题

问拆分包含一批扫描文档的pdf
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问拆分包含一批扫描文档的pdfEN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问拆分包含一批扫描文档的pdf
EN