python下以api形式调用tesseract识别图片验证码

一、背景

之前在博文中介绍在python中如何调用tesseract ocr引擎,当时主要介绍了shell模式,shell模式需要安装tesseract程序,并且效率相对略低。

今天介绍api形式的调用方式,因为博主主要是基于windows环境进行开发,所以这里的api调用主要是指dll调用(linux之类是.so调用)

二、tesseract dll下载网址

https://github.com/charlesw/tesseract 这个网址中包含了编译好的exe及dll文件,而且x86,x64两种架构都有。

(特别说明:选择x86还是x64版本dll,只依赖于你的python架构,而不是操作系统的架构,即便是在64位操作系统,假如你的python是32位版本,这里也要选用x86版本dll)。

博主使用的64位Python,所以进入  tesseract/src/lib/TesseractOcr/x64/目录,分别下载 liblept172.dll、libtesseract304.dll 两个dll。(若是你想用shell形式调用,也可以下载tesseract.exe,与之前的博文改善的地方,就是免去安装tesseract。)

三、语言包 下载网址(tessdata)

注意说明里有这一段话,You will also need to download the language data files for tesseract 3.04 from tesseract-ocr.

网址:https://github.com/tesseract-ocr/tesseract ,下载其中的tessdata目录即可,跟dll放到同一目录。

 四、vc 2015++发行包下载

注意说明里这一段话:

Since tesseract and leptonica binaries are compiled with Visual Studio 2015 you'll need to ensure you have the Visual Studio 2015 Runtime installed.

意思就是,这个tesseract 的dll是使用vs 2015编译的,所以必须安装其发行包,同样分X64,X86两个版本,还是依赖于你的开发环境,不依赖于操作系统。

 五、安装pyocr for python 包

用pip就可以安装: pip install pyocr,也可以到官网下载源码,手动安装: https://github.com/jflesch/pyocr

最新的pyocr是0.4.1,其源码还是基于tesseract 3.0.2 ,而前文下载的tesseract 已经是3.0.4版本了,所以需要改下pyocr源码。 (需要说明的是pyocr包,比起以前博文提的pytesseract包要更复杂一些,同时支持shell、api 、Cuneiform 三种形式。)

修改源码文件 :C:\Python27\Lib\site-packages\pyocr\libtesseract\libtesseract_raw.py文件。

如下所示: 红色字体行,把302dll改成304dll

TESSDATA_PREFIX = os.getenv('TESSDATA_PREFIX', None)


if sys.platform[:3] == "win":
    libnames = [
        # Jflesch> Don't they have the equivalent of LD_LIBRARY_PATH on
        # Windows ?
        "../vs2010/DLL_Release/libtesseract302.dll",
        "libtesseract304.dll", #libtesseract302.dll
    ]
else:
    libnames = [
        "libtesseract.so.3",
    ]

六、编写测试程序

直接放源码 pyocr-test.py :

#coding=utf-8 

'''
当前目录必须有tessdata ,libtesseract304.dll ,liblept172.dll
'''

import os ,sys
tessdir = os.getenv('TESSDATA_PREFIX', None)
if tessdir is None  :
    tessdir = os.path.split(os.path.realpath(__file__))[0] 
    os.environ['TESSDATA_PREFIX'] = tessdir
if tessdir not in os.environ['PATH']:
    os.environ['PATH']= tessdir+';' +os.environ['PATH']
    #sys.path.append(tessdir)


print os.environ['PATH']
print os.environ['TESSDATA_PREFIX']

from pyocr import libtesseract
from pyocr.builders import TextBuilder
from PIL import Image

filename ='1.png'
img = Image.open(filename)
#不设置成单行模式,没有输出
bu = TextBuilder(tesseract_layout=7)
#lang为语言,默认使用eng
print libtesseract.image_to_string(img,lang='fontet',builder=bu)

几个注意点:

1、前文下载的dll 与tessdata语言包文件夹,默认放到 pyocr-test.py 的同一目录下;

2、必须安装vc++ 2015 发行包(vc_redist.x86.exe 或vc_redist.x64.exe),否则会ctypes.cdll.LoadLibrary(libname)会调用dll失败。

3、源码里的第一段,主要就是用来解决python找不到dll的问题,这段代码主要功能:把当前目录加到系统PATH环境变量里,以确保dll能被搜到。

这个地方容易出问题,主要是os.path.realpath 、__file__这几个内部函数和常量,貌似在不同的开发环境,甚至不同的开发工具下都会有不同的结果,跟pyocr无关,主要是python的问题。

import os
tessdir = os.getenv('TESSDATA_PREFIX', None)
if tessdir is None  :
    tessdir = os.path.split(os.path.realpath(__file__))[0] 
    os.environ['TESSDATA_PREFIX'] = tessdir
if tessdir not in os.environ['PATH']:
    os.environ['PATH']= tessdir+';' +os.environ['PATH']

4、实测时发现,bu = TextBuilder(tesseract_layout=7) 这一段不写,会导致识别出错,这个等于以前博文提到-psm 7函数,也就是单行模式。

以上

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏天天

跨域问题

21330
来自专栏云计算教程系列

如何在Debian 9上使用mod_rewrite为Apache重写URL

Apache的mod_rewrite模块允许您以更干净的方式重写URL,将人类可读的路径转换为代码友好的查询字符串。它还允许您根据条件重写URL。

17940
来自专栏Jerry的SAP技术分享

使用SAP云平台的destination消费Internet上的OData service

通过SAP云平台上的destination我们可以消费Internet上的OData service或者其他通过HTTP方式暴露出来的服务。

41940
来自专栏SpringBoot 核心技术

SpringBoot核心技术:探究Actuator的默认开放节点 & 详细健康状态

系统的监控在分布式的设计中显得尤为重要,因为分开部署的缘故,并不能及时的了解到程序运行的实时状况,之所以重要所以SpringBoot也给我提供了一套自动监控的A...

32330
来自专栏AndroidTv

如何用Android Studio同时使用SVN和Git管理项目

这篇来讲讲如何在 Android Studio 上同时用 SVN 和 Git 来管理项目。我知道,你肯定会说我吃饱了撑着,没事找事做,为啥要同时用 SVN 和 ...

40160
来自专栏流柯技术学院

linux下MySQL表名忽略大小写设置

最近公司项目的MySQL数据库要迁移到linux下,部署时日志总是显示报找不到一个表,用MYSQL查看明明有这个表。后来经百度,原来LINUX下的MYSQL默认...

32220
来自专栏iOS开发攻城狮的集散地

Run loop

260100
来自专栏Rovo89

Unix/Linux常用的命令

20350
来自专栏北京马哥教育

ElasticSearch ——单台服务器部署多个节点

一般情况下单台服务器只会部署一个 ElasticSearch node,但是在学习过程中,很多情况下会需要实现 ElasticSearch 的分布式效果,所以需...

14800
来自专栏hbbliyong

WPF备忘录(7)WPF图片资源路径介绍

在项目中增加两张图片Content.jpg和Resource.jpg,分别将其生成操作属性设置为Content和Resource。      在界面中增加两个I...

30150

扫码关注云+社区

领取腾讯云代金券