首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PDF数据提取-需要建议

PDF数据提取-需要建议
EN

Stack Overflow用户
提问于 2011-03-17 10:57:45
回答 3查看 1.7K关注 0票数 2

我创建了一个pdf提取工具。样品屏幕附加。

用户可以加载一个pdf文件并选择他想要的数据区域。然后我获取pdf坐标和页码,然后将其保存为模板。一旦用户给出pdf文件列表,工具就能够根据模板文件提取数据。我的工具非常类似于此。

现在的问题是,有时在一些pdfs中,提取所需的部分数据被转移到下一页。(移动的原因是;我将给出一个示例。如果您认为您购买的项目清单,“总价值”打印的的位置取决于您购买的项目数量:如果它是一个长长的列表总数是底部,否则,中间或接近顶部)。

因此,现在我考虑的是,识别pdf的结构,而不是获取坐标.

但我没有明确的想法去做。请分享任何东西,你认为这对解决这个问题有帮助。我再次重申,我正试图从pdf中获取数据。因此,可以捕获pdf文件的结构。

我的想法是,如果我能识别结构,那么我就可以说值在哪里。例如,我试图将pdf转换成html,并尝试在html标记值中导航。(body->div->table->td->等)但没有成功..。:(

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-03-17 11:33:52

PDF只有薄弱的结构,不像div或容器。有图层组和相似的,但坐标是唯一的事情,你可以指望。

尝试从左和右描述文本类型和页边距,使您的捕获页面独立。

票数 3
EN

Stack Overflow用户

发布于 2011-03-17 12:11:18

PDF文件格式包括一组可选的元标记。如果使用这些文件,则该文件将具有某种结构。否则你就倒霉了。我写了一篇博文告诉你如何在http://www.jpedal.org/PDFblog/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains-structured-content/找到这个

票数 3
EN

Stack Overflow用户

发布于 2018-10-08 19:05:02

您可以使用一些“锚”,如"ORDER“,然后捕获与该锚相关的数据。看看www.ivytools.net --在该工具中,您可以定义规则,指定如何找到相对于文档中其他文本的值。在您的示例中,应该是这样的:

代码语言:javascript
运行
复制
p.Find("ORDER QTY").Down()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5338062

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档