
tesseract-ocr在3.0版本以后才支持中文,所以我们最好下载3.0以后的版本
可以去github上直接下载,我们下载一个windows都较新的版本
下载链接:https://digi.bib.uni-mannheim.de/tesseract/

在这一步的时候,要添加额外的语言训练包

展开后勾选简体中文 和简体中文-竖排

记一下安装路径,后续配置环境变量要用

由于网络的原因,可能出现添加到语言包下载失败的情况,点击确定继续,先把ocr安装好,后续再去网上下载最新的语言包放到\tessdata文件夹下即可

安装路径的\tessdata文件夹下只有英文的训练数据,去网上百度找一下中文的训练数据放进来

如下:


新建一个TESSDATA的环境变量,将数据集的文件夹路径放进来

准备一张试验图片

win +r 进入到命令行, cd 进入到图片所在的文件夹
输入如下命令:tesseract.exe ./test.png result -l chi_sim

运行,在图片文件夹下会生成一个result.txt文件,里面会有识别结果
我这个可能图片不是很清晰,或者语言包下载的不是最新的,准确率上有点欠缺= =

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。