文章/答案/技术大牛

发布

社区首页 >问答首页 >tesseract无法检测简单的两个单词图像中的字符

问tesseract无法检测简单的两个单词图像中的字符
EN

Stack Overflow用户

提问于 2020-01-05 08:46:28

回答 2查看 881关注 0票数 1

我在让tesseract识别下图中的任何字符时遇到了问题：

当我从这个镜像的命令行运行tesseract时，我得到的是"Empty page!!"，也就是说，没有返回任何结果。根据我对维基质量提升部分的阅读，我认为问题可能是这个图像中的单词不是字典中的单词。考虑到这一点，我尝试了完全禁用tesseract字典(使用load_system_dawg和load_freq_dawg配置标志)，以及使用这些额外的单词(LAO和CAUD)扩充现有字典。这两种方法都不起作用。我尝试过tesseract版本3、4，并在Mac计算机上从源代码构建了版本5。所有的结果都是一样的。

奇怪的是，如果我在文字处理器中输入图像中的确切单词并截图，它就可以工作:生成的图像可由tesseract读取。它可以正确地解析每个字符。下面是这张图片：

两个图像之间的唯一区别是第一个图像的分辨率/质量略低。那么，我是否应该相信tesseract无法识别像这样质量稍差的图像中的字符？我能做些什么来提高图像质量吗？我还漏掉了什么吗？

提前谢谢。

tesseract

python-tesseract

ocr

回答 2

Stack Overflow用户

发布于 2020-01-05 08:55:59

这是一个常见的问题。您可能需要对图像进行预处理，包括重新缩放、滤镜等。

下面是关于如何做到这一点的一些参考：

https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

https://docparser.com/blog/improve-ocr-accuracy/

票数 2

Stack Overflow用户

发布于 2020-01-05 22:11:31

解决方案是使用正确的page segmentation method (PSM)。在我的例子中，用于单个文本块的PSM 6做到了这一点。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59596133

复制

相似问题

问tesseract无法检测简单的两个单词图像中的字符
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问tesseract无法检测简单的两个单词图像中的字符EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问tesseract无法检测简单的两个单词图像中的字符
EN