验证码也分很多种类,主要的几种:
(1)图像验证码:这是最简单的一种,也很常见。就比如CSDN登录几次失败之后就会出验证码。
(2)滑块验证码:需要按住滑块并移到正确的位置。比如bilibili的登录验证
(3)点触验证码:需要识别图片中的文字或类型并按序点击。比如12306的登录验证。
(4)宫格验证码:类似安卓的宫格解锁。比如新浪微博的宫格验证码。
一般思路
验证码识别的一般思路为:
1、图片降噪 2、图片切割 3、图像文本输出
所谓降噪就是把不需要的信息通通去除,比如背景,干扰线,干扰像素等等,只剩下需要识别的文字,让图片变成2进制点阵最好。
对于彩色背景的验证码:每个像素都可以放在一个5维的空间里,这5个维度分别是,X,Y,R,G,B,也就是像素的坐标和颜色,在计算机图形学中,有很多种色彩空间,最常用的比如RGB,印刷用的CYMK,还有比较少见的HSL或者HSV,每种色彩空间的维度都不一样,但是可以通过公式互相转换。在RGB空间中不好区分颜色,可以把色彩空间转换为HSV或HSL。色彩空间参见 http://baike.baidu.com/view/3427413.htm
验证码图片7039.jpg:
1、导入Image包,打开图片:
from PIL import Image
im = Image.open('7039.jpg')
2、把彩色图像转化为灰度图像。RBG转化到HSI彩色空间,采用I分量:
imgry = im.convert('L')
imgry.show()
灰度看起来是这样的:
3、二值化处理
二值化是图像分割的一种常用方法。在二值化图象的时候把大于某个临界灰度值的像素灰度设为灰度极大值,把小于这个值的像素灰度设为灰度极小值,从而实现二值化(一般设置为0-1)。根据阈值选取的不同,二值化的算法分为固定阈值和自适应阈值,这里选用比较简单的固定阈值。
把像素点大于阈值的设置,1,小于阈值的设置为0。生成一张查找表,再调用point()进行映射。
#二值化处理
threshold=100 #140 200
table=[]
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
out=gray.point(table,'1')
out.show()
处理结果看起来是这样的:
识别验证码的重点和难点就在于能否成功分割字符,对于颜色相同又完全粘连的字符,比如google的验证码,目前是没法做到5%以上的识别率的。不过google的验证码基本上人类也只有30%的识别率。本文使用的验证码例子比较容易识别。可以不用切割,有关图片切割的方法参见这篇博客:http://www.cnblogs.com/apexchu/p/4231041.html
# -*- coding:utf-8 -*-
from PIL import Image
import pytesseract,tesserocr
im=Image.open('1.jpg')
#把彩色图像转化为灰度图像。RBG转化到HSI彩色空间,采用I分量
gray=im.convert('L')
# gray.show()
#二值化处理
threshold=100 #140 200
table=[]
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
out=gray.point(table,'1')
# out.show()
out.save('captcha.jpg')
th=Image.open('captcha.jpg')
#使用Tesseract进行图片识别
print(pytesseract.image_to_string(th))
print(tesserocr.image_to_text(th))
OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。
例如,对于如图1-22和图1-23所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。
tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。
文件带dev的是开发版本,不带dev的是稳定版本。
选择需要的版本后开始下载,然后安装配置比较简单,就不多说了。语言包的作用就是可以识别多国语言,可在安装选项里选择,也可以自行下载。(下载后的语言包需要解压后放到Tesseract-OCR/tessdata目录下)
下载完成后双击,此时会出现如图1-25所示的页面。
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。
安装好之后打开cmd,输入tesseract,如果出现以下信息就说明安装成功。
对于Linux来说,不同系统已经有了不同的发行包了,它可能叫作tesseract-ocr或者tesseract,直接用对应的命令安装即可。
Ubuntu、Debian和Deepin
在Ubuntu、Debian和Deepin系统下,安装命令如下:
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
CentOS、Red Hat
在CentOS和Red Hat系统下,安装命令如下:
yum install -y tesseract
在不同发行版本运行如上命令,即可完成tesseract的安装。
安装完成后,便可以调用tesseract
命令了。
接着,我们查看一下其支持的语言:
tesseract --list-langs
运行结果示例:
List of available languages (3):
eng
osd
equ
结果显示它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作tessdata(其下载链接为:https://github.com/tesseract-ocr/tessdata)。
利用Git命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
在Ubuntu、Debian和Deepin系统下的迁移命令如下:
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata
在CentOS和Red Hat系统下的迁移命令如下:
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract/tessdata
这样就可以将下载下来的语言包全部安装了。
这时我们重新运行列出所有语言的命令:
tesseract --list-langs
结果如下:
List of available languages (107):
afr
amh
ara
asm
aze
aze_cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi_sim
chi_tra
可以发现,这里列出的语言就多了很多,比如chi_sim就代表简体中文,这就证明语言包安装成功了。
tesseract安装好以后就可以安装tesserocr了。
github上有较为详尽的安装说明,大多数情况下我们可以在cmd下通过pip来安装:(前提是安装了pip,一般python都自带)
pip install tesserocr
但是由于windows下tesserocr 2.3.0版本目前还没有,所以pip安装在Windows下面会报错。
解决方法之一是通过wheel安装:
1.下载tesserocr 2.2.2版本的wheel文件(注意与tesseract版本的对应)
2.通过如下命令安装:(需要与下载文件在同一目录下)
pip install 文件名.whl
PS:即使库能安装成功,有时候运行还是会出现错误(坑!!),推荐个博文:https://www.imooc.com/article/45278
接下来,我们可以使用tesseract和tesserocr来分别进行测试。
下面我们以如图所示的图片为样例进行测试。
首先用命令行进行测试,将图片下载下来并保存为image.png,然后用tesseract命令测试:
tesseract image.png result -l eng && cat result.txt
运行结果如下:
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Python3WebSpider
这里我们调用了tesseract
命令,其中第一个参数为图片名称,第二个参数result
为结果保存的目标文件名称,-l
指定使用的语言包,在此使用英文(eng
)。然后,再用cat
命令将结果输出。
运行结果便是图片的识别结果:Python3WebSpider
。可以看到,这时已经成功将图片文字转为电子文本了。
然后还可以利用Python代码来测试,这里就需要借助于tesserocr库了,测试代码如下:
import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))
我们首先利用Image读取了图片文件,然后调用了tesserocr
的image_to_text()
方法,再将其识别结果输出。
运行结果如下:
Python3WebSpider
另外,我们还可以直接调用file_to_text()方法,这可以达到同样的效果:
import tesserocr
print(tesserocr.file_to_text('image.png'))
运行结果:
Python3WebSpider
如果成功输出结果,则证明tesseract和tesserocr都已经安装成功。
参考:https://blog.csdn.net/iodjSVf8U1J7KYc/article/details/79308086 https://blog.csdn.net/qq_31998745/article/details/81292867 https://cuiqingcai.com/5189.html