问Tesseract-OCR:需要训练所有类型的样本吗？
EN

Stack Overflow用户

提问于 2016-01-22 18:27:25

回答 1查看 211关注 0票数 0

我想做一个应用程序，可以将打印的名片转换为文本。我了解到tesseract-ocr可以通过训练提高准确性。

如果我希望每种类型的名片都有很高的准确率，我需要训练所有类型的名片吗？有数百种类型的名片具有不同的字体或格式。有没有其他方法可以在tesseract-ocr中达到高精度？

发布于 2016-02-18 15:12:58

通常，提供的标准英语词典是相当强大的。在大多数情况下，提高精度的第一步是预处理。

Imagemagick有许多简单的脚本可以使用。我在周围看到的最流行的是http://www.fmwconcepts.com/imagemagick/textcleaner/

通常情况下，您希望实现以下目标：

自适应Threshold)

希望这能有所帮助

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34944404

复制

相似问题

问Tesseract-OCR:需要训练所有类型的样本吗？EN