首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >OCR应用前的图像清理

OCR应用前的图像清理
EN

Stack Overflow用户
提问于 2013-10-28 16:08:46
回答 3查看 21.1K关注 0票数 15

在过去的几个小时里,我一直在试验PyTesser,这是一个非常好的工具。关于PyTesser的准确性,我注意到了以下几点:

  1. 带有图标、图像和文本的文件-- 5-10%的准确性
  2. 只有文本的文件(图像和图标被擦除)- 50-60%的准确性
  3. 在x轴或y轴上的拉伸文件(这是最好的部分)--在x轴或y轴上拉伸文件的精度提高了10-20%。

因此,显然Pytesser不考虑字体尺寸或图像拉伸。尽管有许多关于图像处理和OCR的理论值得阅读,但是除了擦除图标和图像之外,是否有任何标准的图像清理过程需要在应用PyTesser或其他库之前完成,而不管是哪种语言?

.

哇,这篇文章现在已经很旧了。这几天我又开始了对OCR的研究。这一次,我抛弃了PyTesser,转而使用了ImageMagik的Tesseract引擎。直截了当地说,这就是我发现的:

代码语言:javascript
复制
1) You can increase the resolution with ImageMagic(There are a bunch of simple shell commands you can use)
2) After increasing the resolution, the accuracy went up by 80-90%.

因此,Tesseract引擎无疑是市场上最好的开源OCR引擎。这里不需要事先进行图像清理。但要注意的是,它不适用于包含大量嵌入图像的文件,而且我也想不出一种方法来训练Tesseract忽略它们。另外,图像中的文本布局和格式也有很大的不同。它能很好的处理图片和文字。希望这能帮上忙。

EN

Stack Overflow用户

发布于 2014-01-23 17:56:45

不确定您的意图是否用于商业用途,但这是工作的工作,如果您执行OCR在一堆类似的图像。

http://www.fmwconcepts.com/imagemagick/textcleaner/index.php

原创

用给定的参数进行预处理后。

票数 5
EN
查看全部 3 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19639703

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档