我正在寻找布局分析库或工具(最好是开源的),可以应用于文本PDF,以识别主要文本内容与侧栏,章节标题,章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具,它们使用光学字符识别和图像识别来识别布局。有没有库可以在没有OCR的情况下做同样的事情?可以从文本PDF中提取文本和图像,并将包含文本和图像位置的输入提供给该工具;对于此类文件使用OCR将是相当繁琐的。
发布于 2013-05-14 06:18:10
我也不知道这样的独立(不依赖于光学字符识别或图像处理)库,但您应该能够使用OCRopus或OCRFeeder (https://live.gnome.org/OCRFeeder)的布局检测部分。你有没有看过后者?显然,它被设计用于几乎任何标准的光学字符识别引擎,这意味着可以通过创建自己的“虚拟光学字符识别”来单独使用布局分析部分,该“虚拟光学字符识别”根据您的自定义逻辑(而不是任何真正的图像处理)提取数据,并将其传递给OCRFeeder。
https://stackoverflow.com/questions/16430994
复制相似问题