我正在寻找最好的一块,或组合或一块软件,其中我采取扫描图像的一个表,应用一些OCR,并能够将它转换成.csv格式或类似的。
我一直在玩Tesseract,但它似乎没有保留构建表的空白。我能想到的唯一方法是,也许使用Hough变换来检测表的线条,然后将图像分割成碎片,在重构之前对表的补丁进行OCR。
上面的内容似乎非常复杂,当然有些表没有大纲。我见过像ABBYY/FineReader这样的软件做得很棒。我想知道是否有人知道一个相当好的开源等价物?
发布于 2021-04-23 13:09:42
有一个非常有希望的项目,布局分析器,旨在简化表格数字化。它基于tesseract,但有许多针对表的增强。
https://softwarerecs.stackexchange.com/questions/46326
复制相似问题