首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >拆分包含一批扫描文档的pdf

拆分包含一批扫描文档的pdf
EN

Data Science用户
提问于 2019-10-09 13:08:50
回答 2查看 496关注 0票数 3

我的问题主要是:是否有任何ML研究论文将包含一批扫描文件(如银行对账单)的pdf拆分成单独的文档?

我已搜寻过,但并没有在互联网上找到任何有关的研究论文或一般的应用。

我主要感兴趣的是这些文件/应用程序的特性工程,但总体上也对整个方法感兴趣。

EN

回答 2

Data Science用户

发布于 2019-12-10 15:46:02

Esposito、Ferilli、Basile和Mauro的"面向数字文档处理的机器学习:从布局分析到元数据提取“详细介绍了如何创建用于解析包括pdfs在内的数字文档的自定义系统。它提出了一个学习文档中任何结构的广义过程。

票数 2
EN

Data Science用户

发布于 2019-12-10 15:52:17

在大量使用pdf,如文档、银行报表和您希望看到的3次主要会议/研讨会之后,您希望看到的是ICDAR、DocEng和NeuralIPS的文档智能研讨会。

你所寻找的论文不在这里的几率很低,因为这3种可能是最大的文献研究场所。我已经经历了几个月了,我找不到你想要的东西。

根据页面上的文本将页面分类为结束页的简单模型可能有效,但无法保证。

这类课题是机器学习与文献研究的重要组成部分。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/61490

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档