我们希望分析具有不同语言的文本(非手写)和具有非常广泛的排列/结构范围的图像的文档扫描。我们要解决的第一个问题是提取文本,并识别和分离标题、字幕和正文。
目前我们正在做文献研究。有大量关于深度学习、计算机视觉、光学字符识别或自然语言处理的文献,但这些文献都没有真正专注于文本结构的光学识别。
我们想知道,处理文本结构的光学识别的学科/领域的名称是什么?
解决这些问题的最先进的方法和工具是什么?
发布于 2020-09-02 14:10:03
光学布局识别(OLR)。布局分析和区域提取的开源工具的一个很好的例子是here。
https://stackoverflow.com/questions/63688208
复制相似问题