文章/答案/技术大牛

发布

社区首页 >问答首页 >PDF数据提取-需要建议

问PDF数据提取-需要建议
EN

Stack Overflow用户

提问于 2011-03-17 10:57:45

回答 3查看 1.7K关注 0票数 2

我创建了一个pdf提取工具。样品屏幕附加。

用户可以加载一个pdf文件并选择他想要的数据区域。然后我获取pdf坐标和页码，然后将其保存为模板。一旦用户给出pdf文件列表，工具就能够根据模板文件提取数据。我的工具非常类似于此。

现在的问题是，有时在一些pdfs中，提取所需的部分数据被转移到下一页。(移动的原因是；我将给出一个示例。如果您认为您购买的项目清单，“总价值”打印的的位置取决于您购买的项目数量:如果它是一个长长的列表总数是底部，否则，中间或接近顶部)。

因此，现在我考虑的是，识别pdf的结构，而不是获取坐标.。

但我没有明确的想法去做。请分享任何东西，你认为这对解决这个问题有帮助。我再次重申，我正试图从pdf中获取数据。因此，可以捕获pdf文件的结构。

我的想法是，如果我能识别结构，那么我就可以说值在哪里。例如，我试图将pdf转换成html，并尝试在html标记值中导航。(body->div->table->td->等)但没有成功..。:(

data-structures

data-extraction

algorithm

pdf

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-03-17 11:33:52

PDF只有薄弱的结构，不像div或容器。有图层组和相似的，但坐标是唯一的事情，你可以指望。

尝试从左和右描述文本类型和页边距，使您的捕获页面独立。

票数 3

Stack Overflow用户

发布于 2011-03-17 12:11:18

PDF文件格式包括一组可选的元标记。如果使用这些文件，则该文件将具有某种结构。否则你就倒霉了。我写了一篇博文告诉你如何在http://www.jpedal.org/PDFblog/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains-structured-content/找到这个

票数 3

Stack Overflow用户

发布于 2018-10-08 19:05:02

您可以使用一些“锚”，如"ORDER“，然后捕获与该锚相关的数据。看看www.ivytools.net --在该工具中，您可以定义规则，指定如何找到相对于文档中其他文本的值。在您的示例中，应该是这样的：

p.Find("ORDER QTY").Down()

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5338062

复制

相似问题

问PDF数据提取-需要建议
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF数据提取-需要建议EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF数据提取-需要建议
EN