我想做一个应用程序,可以将打印的名片转换为文本。我了解到tesseract-ocr可以通过训练提高准确性。
如果我希望每种类型的名片都有很高的准确率,我需要训练所有类型的名片吗?有数百种类型的名片具有不同的字体或格式。有没有其他方法可以在tesseract-ocr中达到高精度?
发布于 2016-02-18 15:12:58
通常,提供的标准英语词典是相当强大的。在大多数情况下,提高精度的第一步是预处理。
Imagemagick有许多简单的脚本可以使用。我在周围看到的最流行的是http://www.fmwconcepts.com/imagemagick/textcleaner/
通常情况下,您希望实现以下目标:
自适应Threshold)
希望这能有所帮助
https://stackoverflow.com/questions/34944404
复制相似问题