首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Tesseract-OCR:需要训练所有类型的样本吗?

Tesseract-OCR:需要训练所有类型的样本吗?
EN

Stack Overflow用户
提问于 2016-01-22 18:27:25
回答 1查看 211关注 0票数 0

我想做一个应用程序,可以将打印的名片转换为文本。我了解到tesseract-ocr可以通过训练提高准确性。

如果我希望每种类型的名片都有很高的准确率,我需要训练所有类型的名片吗?有数百种类型的名片具有不同的字体或格式。有没有其他方法可以在tesseract-ocr中达到高精度?

EN

回答 1

Stack Overflow用户

发布于 2016-02-18 15:12:58

通常,提供的标准英语词典是相当强大的。在大多数情况下,提高精度的第一步是预处理。

Imagemagick有许多简单的脚本可以使用。我在周围看到的最流行的是http://www.fmwconcepts.com/imagemagick/textcleaner/

通常情况下,您希望实现以下目标:

自适应Threshold)

  • Ensure阈值
  • Unsharp工作良好
  • 去除噪声(如果图像良好,这可能由Threshold)
    • Ensure覆盖)
    • 白名单适合它正在读取的字段

希望这能有所帮助

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34944404

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档