前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Tesseract-OCR 4.1.0 安装和使用— windows及CentOS

Tesseract-OCR 4.1.0 安装和使用— windows及CentOS

作者头像
NaughtyCat
发布2020-10-09 16:39:09
3.2K1
发布2020-10-09 16:39:09
举报
文章被收录于专栏:开心的平凡酱开心的平凡酱

 OCR(Optical character recognition) —— 光学文字识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向

截止笔者发文(2019.12.25),tesseract-ocr 最新发布的稳定版本是4.1.0. 而tesseract-ocr依赖于leptonica——最新稳定版本是1.78.0

安装说明

  • Windows下载下来一路无脑,点下一步就好

(1)__详情请移步至如下链接,下载安装:

https://github.com/UB-Mannheim/tesseract/wiki

(2)配置环境变量(跟JAVA一样)及添加__TESSDATA_PREFIX请参见:

https://www.cnblogs.com/jianqingwang/p/6978724.html

注意需要下载训练集—traineddata:

https://github.com/tesseract-ocr/tessdata

中文请选如下4个:

chi_sim.traineddata (简体— 对于宋体,像素>= 300dpi:识别率高达%100,同时对英文阿拉伯数字识别率高达百分之90以上

chi_sim_vert.traineddata (简体,竖排)

chi_tra.traineddata (繁体)

chi_tra_vert.traineddata(繁体,竖排)【CoderBaby

  • CentOS 6 (这个网上的安装方案很少,真正可行的基本没有)

(1)下载Leptonica 和 Teseract 源码

wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz

wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz

(2)配置、编译和安装

leptonica

tar xzvf leptonica-1.78.0.tar.gz cd leptonica-1.78.0 ./configure make

Tesseract-OCR

tar xzf tesseract-ocr-4.1.0.tar.gz cd tesseract-4.1.0 ./autogen.sh ./configure make sudo make install

*****************************************************************************

在安装Tesseract-OCR过程中一步一错,具体错误和解决办法如下:

 安装:

(1)yum install tesseract

【Error】download出错,镜像163(可能网易的没有)下载失败

【Solution】更换阿里镜像

 切换到yum repo配置目录: cd /etc/yum.repos.d

 备份基础repo: sudo mv CentOS-Base.repo CentOS-Base.repo.backup

(2)下载tesseract key校验出错

 【Error】GPG key retrieval failed: Errno 14 Could not open/read file:///etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-6

【Solution1】不检查key了—— 绕过方案

编辑epel.repo: vim /etc/yum.repos.d/epel.repo 

改参数: gpgcheck=1 改为 gpgcheck=1

【Solution1】导入key —— 真正解决方案

代码语言:javascript
复制
cd /etc/pki/rpm-gpg
use rpm --import http://download.fedoraproject.org/pub/epel/RPM-GPG-KEY-EPEL-6 

或者(从epel下载安装RPM package)
yum -y install http://mirror.pnl.gov/epel/6/i386/epel-release-6-8.noarch.rpm

或者
手动将key拷贝到正确目录

详情请参考: https://unix.stackexchange.com/questions/132757/how-to-automatically-accept-epel-gpg-key

*****************************************************************************

(3)下载语言包,并且拷贝到testdata

代码语言:javascript
复制
$ wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz       
$ tar xzf tesseract-ocr-3.02.eng.tar.gz       
$ sudo cp tesseract-ocr/tessdata/* /usr/local/share/tessdata


注:如果没有C编译器,先安装gcc,具体请移步参考—— https://linuxhostsupport.com/blog/how-to-install-gcc-on-centos-7/
如果安装失败,需要配置软件源

使用方法

参数的使用有两种:

  • 使用 -c 选项来设定单项参数的值,比如: tesseract paper.png paper -l chi_sim -c language_model_ngram_on=1 其中,parer.png是源文件(图片,文件完整路径名请自行添加),paper是输出文件名(默认为txt文件); -l 指定训练集(chi_sim —— 简体中文)

允许使用多个 -c 选项来设置多个参数的值。

  • 将多项参数设置写入文件,然后在识别时使用该文件,比如:
代码语言:javascript
复制
  tesseract paper.png paper -l chi_sim tess.conf

代码语言:javascript
复制
(4)更简便的方法是使用yum方式安装 (会根据CentOS版本选择对应的Tesseract)
yum install epel-release (一定要先装,不然安装tesseract会报错:No package tesseract available.)
yum install tesseract

 中文包

 yum install tesseract-langpack-chi_sim.noarch

 训练文件位于

 /usr/share/tesseract/tessdata/

参考:

1)https://stackoverflow.com/questions/23792373/installing-tesseract-ocr-on-centos-6

2)http://www.zmonster.me/2015/04/17/tesseract-install-usage.html 

 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

************************************************************************

精力有限,想法太多,专注做好一件事就行

  • 我只是一个程序猿。5年内把代码写好,技术博客字字推敲,坚持零拷贝和原创
  • 写博客的意义在于打磨文笔,训练逻辑条理性,加深对知识的系统性理解;如果恰好又对别人有点帮助,那真是一件令人开心的事

************************************************************************

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-12-30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
AI 应用产品
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档