我需要创建一个工具,将使用高质量的相机,以扫描特定的文本块从文件和OCR他们。每个文档都匹配相同的模板,其中包含几个填充了数据的表。我需要从每个扫描文档中提取一个特定单元的数据。
我需要考虑旋转和轻微的图像转换。整个工作流应该如下所示:
基本上,我不需要一个最终的解决方案,而是一些方向,从哪里开始寻找。我知道如何对纯文本执行OCRing,我不知道的是如何实现步骤2和步骤3。
提前谢谢。
发布于 2012-04-09 11:21:40
基本上,普通文本的OCR,悲观地说,当涉及到非常好的扫描图像时,是一个很好解决的任务。您所描述的是更进一步-图像预处理和场级识别与数据捕获。据我所知,开源引擎(甚至是被认为是其中最好的tesseract )也没有提供这样的功能。
同时,专有的OCR引擎多年来一直在解决您描述的任务(花费了大量的人力资源),并且进展非常顺利。因此,如果您正在规划一个商业软件,我建议您查看一下http://ocrsdk.com,它是一个带有web的云OCR。它允许您上传图像并将OCRed数据发回给您。它已经内置了所有可能的图像预处理算法,所以您不必担心步骤2。至于步骤3,您可能需要参考它的文档的本节。我是开发这项服务前端的团队的一员,所以我可以更多地了解它。希望能帮上忙!
https://stackoverflow.com/questions/10062840
复制相似问题