发布于 2012-12-13 04:07:22
Pdftotext确实可以完成你想要做的事情。我非常确定CAM::PDF也可以,但是我以前没有使用过这个工具来返回坐标信息。
我将在整个页面上运行pdftotext,保存xml输出,然后梳理结果。它应该为页面上的每个单词提供xMin/xMax/yMin/yMax值。然后,您可以使用这些坐标来构建一个列表,其中只包含那些落入您预先定义的边界内的单词。
然而,流畅地识别多行地址可能会带来其自身的挑战,特别是如果在您定义的区域内可能存在任何非地址文本。
https://stackoverflow.com/questions/13847522
复制相似问题