ubuntu 14.04 下安装 PyTesser 进行OCR识别

前言

玩python期间,看到好多用python做的爬虫,感觉挺好玩,就开始了爬虫之旅的学习,期间受一些教程的启发想去试试学校的教务系统,可惜登录需要验证码,于是四处寻找解决方法,最终找到这个大致能看懂的。

网上重复的不少,很多都是直接ctrl+c/v出来的,文章排版一类的难免让人不忍直视,加之安装过程有点繁琐,暂且整理记录于此,供自己这样的小白以用之。

1、必备库

检查系统是否已经安装以下库:

libpng   , libjpeg ,libtiff,zlibg-dev

命令:

ldconfig -p | grep libpng
ldconfig -p | grep libjpeg
ldconfig -p | grep libtiff
ldconfig -p | grep zlibg

若没有就安装:

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlibg-dev

 有些教程中出现需要如下库:

gcc、g++、automake

sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake

2、安装PIL

方法一

到PIL首页下载适合你的python版本的PIL:http://www.pythonware.com/products/pil/

我python是2.7版本的,下载地址是:http://effbot.org/downloads/Imaging-1.1.7.tar.gz

解压压缩包:

sudo ar -zxvf Imaging-1.1.7.tar.gz

进入解压后的文件夹:

 sudo cd Imaging-1.1.7

安装:

 sudo python setup.py install

方法二

sudo apt-get install libjpeg-dev
sudo apt-get install libfreetype6-dev
sudo easy_install PIL

不安装libjpeg-dev,会出现:"decoder jpeg not available"错误,如下图示。

不安装libfreetype6-dev,会出现“The _imagingft C module is not installed”错误,如下图示:

3、安装Tesseract:

下载最新版Tesseract,下载地址http://code.google.com/p/tesseract-ocr/downloads/list 我下载的是3.02版本。

解压压缩包:

sudo tar -zxvf tesseract-ocr-3.02.02.tar.gz

进入解压后的文件夹:

sudo cd tesseract-ocr

安装:

sudo ./configure --prefix=/opt/tesseract
sudo make
sudo make install

安装完成后要配置PATH,修改用户home目录下的 .profile或者.bash-profile我这里是修改.bash-profile。在PATH那里加上 以下内容。

:/opt/tesseract/bin

如命令:

export PATH=$PATH :/opt/tesseract/bin

令配置文件生效:

sudo .bash-profile

提示:

1、使用--prefix 来指定安装的目录,我这里的安装目录是/opt/tesseract

2、若提示:./configure: line 1937: config.log: Permission denied

需用到sudo

4.安装pytesser:

下载pytesser

http://code.google.com/p/pytesser/downloads/list

目前只有一个版本。

解压压缩包

sudo unzip pytesser_v0.0.1.zip

提示:

1.建议创建一个文件夹,把压缩包放到文件夹里在解压,因为直接使用unzip来解压会把压缩包里的东西解压到当前目录,不易管理。

2.解压时可以使用 -d将zip文件解压至指定文件夹下,如:

sudo unzip pytesser_v0.0.1.zip -d /opt/py

测试

目录下有“phototest.tif”和'fnord.tif两个'图片文件作为测试用,此处选择其中的‘fnord.tif’直接在目录下写一个python脚本进行测试: test.py:

from pytesser import *
im = Image.open('fnord.tif')
text = image_to_string(im)
print text

图片:

效果:

补遗

1、pytesser文件夹外.py文件的无法调用

目前仅能在解压的文件夹中使用pytesser,在其文件夹外使用,即使写成如下代码:

import sys
sys.path.append("/opt/pythonk/pytesser")
from pytesser import *
im = Image.open('fnord.tif')
text = image_to_string(im)
print text

依旧会报:

Traceback (most recent call last):
  File "/home/wind/KuaiPan/text.py", line 11, in <module>
    from pytesser import *
ImportError: No module named pytesser

的错误。

2、pytesser依赖于PIL,因此需要先安装PIL模块

3、 leptonica

据说 pytesser 调用了 tesseract ,因此需要安装 tesseract,安装 tesseract 需要安装  leptonica ,否则编译tesseract 的时候出现 "configure: error: leptonica not found"。

下载安装leptonica

http://www.leptonica.org/download.html

或者

http://code.google.com/p/leptonica/downloads/list

最新的是 leptonica-1.69.tar.bz2

4、ldconfig命令的解释和用法

在我们做Linux开发的时候,往往会出现 某些库 can not found 的情况,在我们添加了这些库之后,如何查看这些库的路径是否被识别了呢?下面介绍一个命令:

ldconfig -p | grep lts

说明:使用 ldconfig -p 命令用来打印出当前缓存所保存的所有库的名字,然后用管道符传递给 grep lts 命令用于解析出 liblts.so 共享库的路径是否已加入缓存中。

以下是ldconfig命令的解释和用法:http://blog.163.com/cn_prince/blog/static/638790120078289157270/

ldconfig是一个动态链接库管理命令,为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfig  ldconfig 命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态 链接库(格式如前介绍,lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件.缓存文件默认为 /etc/ld.so.cache,此文件保存已排好序的动态链接库名字列表.

ldconfig通常在系统启动时运行,而当用户安装了一个新的动态链接库时,就需要手工运行这个命令.

ldconfig命令行用法如下:

ldconfig [-v|--verbose] [-n] [-N] [-X] [-f CONF] [-C CACHE] [-r ROOT] [-l] [-p|--print-cache] [-c FORMAT] [--format=FORMAT] [-V] [-?|--help|--usage] path...

ldconfig可用的选项说明如下:

(1) -v或--verbose : 用此选项时,ldconfig将显示正在扫描的目录及搜索到的动态链接库,还有它所创建的连接的名字.

(2) -n : 用此选项时,ldconfig仅扫描命令行指定的目录,不扫描默认目录(/lib,/usr/lib),也不扫描配置文件/etc/ld.so.conf所列的目录.

(3) -N : 此选项指示ldconfig不重建缓存文件(/etc/ld.so.cache).若未用-X选项,ldconfig照常更新文件的连接.

(4) -X : 此选项指示ldconfig不更新文件的连接.若未用-N选项,则缓存文件正常更新.

(5) -f CONF : 此选项指定动态链接库的配置文件为CONF,系统默认为/etc/ld.so.conf.

(6) -C CACHE : 此选项指定生成的缓存文件为CACHE,系统默认的是/etc/ld.so.cache,此文件存放已排好序的可共享的动态链接库的列表.

(7) -r ROOT : 此选项改变应用程序的根目录为ROOT(是调用chroot函数实现的).选择此项时,系统默认的配置文件/etc/ld.so.conf,实际对应的为 ROOT/etc/ld.so.conf.如用-r /usr/zzz时,打开配置文件/etc/ld.so.conf时,实际打开的是/usr/zzz/etc/ld.so.conf文件.用此选项,可以 大大增加动态链接库管理的灵活性.

(8) -l : 通常情况下,ldconfig搜索动态链接库时将自动建立动态链接库的连接.选择此项时,将进入专家模式,需要手工设置连接.一般用户不用此项.

(9) -p或--print-cache : 此选项指示ldconfig打印出当前缓存文件所保存的所有共享库的名字.

(10) -c FORMAT 或 --format=FORMAT : 此选项用于指定缓存文件所使用的格式,共有三种:old(老格式),new(新格式)和compat(兼容格式,此为默认格式).

(11) -V : 此选项打印出ldconfig的版本信息,而后退出.(12) -? 或 --help 或 --usage : 这三个选项作用相同,都是让ldconfig打印出其帮助信息,而后退出.

参考资料

ubuntu 12.04 下安装 PyTesser 进行OCR识别

linux下安装使用pytesser,图片文本识别

(转)python图片识别小程序,验证码识别

Ubuntu下安装PIL

Linux/ARMLinux 中查看某个库是否存在的命令

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏无所事事者爱嘲笑

ionic2 处理android硬件返回按钮

1344
来自专栏伦少的博客

Centos7 Tomcat9 安装笔记

有两个月没更新博客,部分原因是这两月的工作一直没写Spark程序,而是在写前端,所以虽然期间一直想写但是没有想出从哪方面入手。后端框架用的SpringBoot,...

2571
来自专栏阮一峰的网络日志

Page Lifecycle API 教程

两周前,我介绍了 Page Visibility API。有了它,就可以监听各种情况的网页卸载。

922
来自专栏熊二哥

IntellijIDEA快速入门(Windows版)

跟随公司变更技术堆栈的步伐,开始学习相应工具IntelliJ的使用,之前一个大神同时也提到,最近该IDE的市场份额已然超越了免费的Eclipse,因此该工具已经...

1867
来自专栏地方网络工作室的专栏

RK61 蓝牙机械键盘配合 karabiner 软件适配 MAC 系统脚本

RK61 蓝牙机械键盘配合 karabiner 软件适配 MAC 系统脚本 在 mac 升级到 10.12 之后,karabiner 软件就一直在开发中。以至于...

3298
来自专栏杨建荣的学习笔记

ASM基本配置问题(r5笔记第89天)

ASM自10g开始作为Grid的一部分,对于存储管理层的一个重大变革。重要性和丰富的功能就不多说了,主要的一点,是完全免费的。所以对于高端存储望而却步,而且不希...

2635
来自专栏Web项目聚集地

IDEA入门级教程(文末常用快捷键)

IDEA相对于eclipse来说最大的优点就是它比eclipse聪明。聪明到什么程度呢?我们先来看几个简单的例子。

1223
来自专栏腾讯NEXT学位

JavaScript全栈开发-工具篇(下)

? 文章目录 ? 四、测试工具 1. 单元测试 单元测试(unit testing),是指对软件中的最小可测试单元进行检查和验证。常见的单元测试工具有: * ...

1232
来自专栏QQ音乐技术团队的专栏

electron 构建跨平台桌面应用

昨日(2016.09.13)本文发表后,获得了一定的阅读和转发量,但经部分网友反馈和仔细审核后发现,在与 NW.js 对比的环节,言辞欠妥,且数据的真实性有待考...

1.2K11
来自专栏Alan's Lab

在 Angular 2 Component 中使用第三方 JS 库

本文所有内容以 Angular 2 Quick Start 项目为基础,使用 TypeScript 语言。

1863

扫码关注云+社区

领取腾讯云代金券