tesseract 是一个 google 支持的开源 ocr 项目
其项目地址:https://github.com/tesseract-ocr/tesseract
目前最新的源码可以在这里下载
Tesseract 的 release 版本下载地址:https://github.com/tesseract-ocr/tesseract/wiki/Downloads,这里需要注意这一段话:
Currently, there is no official Windows installer for newer versions
意思就是官方不提供最新版 windows 平台安装包,只有相对略老的 3.02.02 版本,其下载地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/
最新版 3.03 和 3.05 版本,都是三方维护和管理的安装包,有好几个发行机构,分别是:
安装之后,默认目录 C:\Program Files (x86)\Tesseract-OCR,你需要把这个路径放到你操作系统的 path 搜索路径中,否则后面使用起来会不方便。
在安装目录 C:\Program Files (x86)\Tesseract-OCR 下可以看到 tesseract.exe 这个命令行执行程序
tesseract 1.png output-l eng -psm 7
-psm 7 表示用单行文本识别 pagesegmode 值:
#-l eng 代表使用英语识别