首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >有没有一种方法可以使用Perl在PDF的特定区域内进行文本搜索?

有没有一种方法可以使用Perl在PDF的特定区域内进行文本搜索?
EN

Stack Overflow用户
提问于 2012-12-13 03:53:18
回答 1查看 75关注 0票数 0

我有由PDFcreator创建的PDF。每个多页PDF的第一页都有需要识别的邮寄地址。有没有办法在PDF的特定区域内进行文本搜索?

我已经找到了CAM::PDFpdftotext,但看不到将搜索限制在特定区域的方法。我主要关心的是准确性,因为在同一个PDF中可能会出现不同的地址。另外,搜索整个PDF可能太慢了。

EN

回答 1

Stack Overflow用户

发布于 2012-12-13 04:07:22

Pdftotext确实可以完成你想要做的事情。我非常确定CAM::PDF也可以,但是我以前没有使用过这个工具来返回坐标信息。

我将在整个页面上运行pdftotext,保存xml输出,然后梳理结果。它应该为页面上的每个单词提供xMin/xMax/yMin/yMax值。然后,您可以使用这些坐标来构建一个列表,其中只包含那些落入您预先定义的边界内的单词。

然而,流畅地识别多行地址可能会带来其自身的挑战,特别是如果在您定义的区域内可能存在任何非地址文本。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13847522

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档