首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >tesseract无法检测简单的两个单词图像中的字符

tesseract无法检测简单的两个单词图像中的字符
EN

Stack Overflow用户
提问于 2020-01-05 08:46:28
回答 2查看 881关注 0票数 1

我在让tesseract识别下图中的任何字符时遇到了问题:

当我从这个镜像的命令行运行tesseract时,我得到的是"Empty page!!",也就是说,没有返回任何结果。根据我对维基质量提升部分的阅读,我认为问题可能是这个图像中的单词不是字典中的单词。考虑到这一点,我尝试了完全禁用tesseract字典(使用load_system_dawgload_freq_dawg配置标志),以及使用这些额外的单词(LAO和CAUD)扩充现有字典。这两种方法都不起作用。我尝试过tesseract版本3、4,并在Mac计算机上从源代码构建了版本5。所有的结果都是一样的。

奇怪的是,如果我在文字处理器中输入图像中的确切单词并截图,它就可以工作:生成的图像可由tesseract读取。它可以正确地解析每个字符。下面是这张图片:

两个图像之间的唯一区别是第一个图像的分辨率/质量略低。那么,我是否应该相信tesseract无法识别像这样质量稍差的图像中的字符?我能做些什么来提高图像质量吗?我还漏掉了什么吗?

提前谢谢。

EN

回答 2

Stack Overflow用户

发布于 2020-01-05 08:55:59

这是一个常见的问题。您可能需要对图像进行预处理,包括重新缩放、滤镜等。

下面是关于如何做到这一点的一些参考:

https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

https://docparser.com/blog/improve-ocr-accuracy/

票数 2
EN

Stack Overflow用户

发布于 2020-01-05 22:11:31

解决方案是使用正确的page segmentation method (PSM)。在我的例子中,用于单个文本块的PSM 6做到了这一点。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59596133

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档