文章/答案/技术大牛

发布

社区首页 >问答首页 >黑名单字符不会被Tesseract OCR忽略

问黑名单字符不会被Tesseract OCR忽略
EN

Stack Overflow用户

提问于 2013-03-04 10:33:31

回答 2查看 7.7K关注 0票数 3

我使用Tessearct来识别图像的字符。但我希望OCR忽略数字字符。

_tesseract->SetVariable("tessedit_char_blacklist", "0123456789");

通过这种方式，OCR不识别数字字符，但它为我提供了一些我不想要的其他字符。

例如:有一个图像的文本为$ 12，当我在该图像上应用OCR时，它提供了美元fl。

如上文所示，OCR将12转换为fl，这是我不想要的。我希望12被OCR忽略。

有没有办法得到美元而不是美元fl的结果？

给我任何解决办法。任何帮助都是有价值的。

ios

ocr

tesseract

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-08-05 09:08:37

有关方法SetVariable()，请参见此注释：

// For most variables, it is wise to set them before calling Init.

我也遇到了与您相同的问题，并在Init修复代码之前移动代码：

tess = new TessBaseAPI();    
tess->SetVariable("tessedit_char_whitelist", 
   "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");
tess->SimpleInit([dataPath cStringUsingEncoding:NSUTF8StringEncoding],  
   "eng", false);

票数 7

Stack Overflow用户

发布于 2015-09-17 15:48:35

这不是tessedit_char_blacklist的目的。tessedit_char_blacklist保证数字不会出现在图像中。如果你告诉Tesseract不正确的信息，你会得到坏的结果。

相反，你想要的是后处理Tesseract的输出。让它输出正确的OCR，然后去掉数字字符。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15199510

复制

相似问题

问黑名单字符不会被Tesseract OCR忽略
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问黑名单字符不会被Tesseract OCR忽略EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问黑名单字符不会被Tesseract OCR忽略
EN