闲来想实现程序模拟登陆一个系统,说白了,就是写个简单的爬虫,但是无奈,遇到了数字图片验证码,在查阅了一些方案以后,遂决定自己手写代码实现验证码识别,分享一下整个过程。
图片验证码是什么
图片验证码,这个大家应该都见过。最普遍的图片验证码就是一张图片上面有4-6个歪歪扭扭的数字字母,图片还有点看不清楚,但是基本可以肉眼识别出上面的数字字母。那为什么要有这个东东呢?
其实验证码的出现为了区分人与机器。对于歪歪妞妞还有点看不清的数字字母图片,由于人脑的特殊构造,是可以完全无障碍识别的,但是想让奇迹识别出这些字母数字,就会出现识别错误。那为什么要区别人与机器呢?假如一个一个系统没有验证码,我知道了你的用户名,并且知道你的登录密码是8位的数字,那我完全可以写个脚本程序穷举出所有的8位数组合,挨个去尝试登录,这个过程对于人来说可能耗时耗力,但是对于程序来说,so easy。所以验证码的出现就会阻止程序进行这样的穷举登录。
随着技术的发展,现在很多的验证码系统都可以通过图像处理、机器学习深度学习等方式进行攻破,图片验证码已经不再安全,即使是非常有名的12306验证码,也已经被利用深度学习达到了很高的识别精度。所以也出现了手机验证码、拖动滑块图片到指定位置的验证码等各种验证码。下面展示的就是几种常见的验证码。
超简单验证码
为什么说是超简单呢?因为这次需要处理的验证码,就是简单的数字图片验证码,并且图片很干净,没有干扰元素,数字也很规整,没有扭曲、变形和移位。如下图所示。
看到图片可能很多人就说了,这不就是个简单的图像处理问题吗,太简单了。
先说说我看到这个图片验证码的第一想法,不是自己手动实现,我先想到的是OCR(光学字符识别)。因为图片上的数字太规整了,OCR识别是最快、最省力的,只需要调用接口即可。但是查了一下目前的OCR接口,找到了腾讯的OCR接口,但是一个月只有1000次免费调用,感觉用在爬虫上不太够,而且我这个验证码是gif图片,腾讯的接口不支持gif。所以就干脆自己写一个识别程序。
首先说一下,对于这个程序的要求,识别速度要快,识别准确度要高,程序要尽量简单,尽量不涉及图像处理的内容。换句话说就是用最低的成本实现这个验证码的识别。
分析思路
实现的思路其实很简单,由于数字图片验证码只有0-9这10个数字,场景很少,加之数字很规整,所以可以先收集到包含有0-9这10个数字的图片。然后用程序进行图片裁剪,裁剪出0-9这10个单个数字的形态的图片并存储。然后对于一张新的验证码图片,我们可以采用先裁剪为4张单个数字图片,然后与我们事先准备好的10个数字图片进行相似度对比,最相似的即为正确的数字。
具体实现
下面看看具体的代码实现。
图片边缘空白裁剪
这一步主要是把图片边缘的空白裁减掉,让剩余的图片刚好包含四个数字即可。图片的原始大小是60px*36px,将其导入ps中查看需要裁剪的部分,然后用程序进行裁剪。如图,就是把红色框之外的部分裁减掉。
这里为了程序尽可能简单,所以不使用第三方的Java包,知识用Java本身内置的ImageIO工具类进行图片的读写和简单裁剪,封装的函数如下图所示:
为了提升性能,我们在部分情况下无需将裁剪后的图片图片保存到本地,而是直接转化为字节数组然后进行处理即可。
使用下面的代码调用上面的函数即可完成对图片边缘空白的裁剪。
裁剪完成后的对比如下:
图片分割为单个数字
由于图片非常规整,每个数字的宽度也是一致的,所以我们可以继续使用上面的裁剪函数进行图片裁剪,即可将包含四个数字的图片裁剪为单个的数字的图片,代码如下:
经过上面的步骤,我们就获得0-9这10个数字的单个图片,如下图
验证码对比识别
经过查看,由于图片非常规整,我们每次裁剪出来的数字图片都是一样的,也就是同一个数字的两张图片的每一个字节都是相同的,并且经过裁剪后的图片其实非常小,所以我们的识别其实就是对比,只需要将待识别的图片裁剪为4张小图,然后与我们提前准备好的单张数字图片对比即可。代码如下:
上面的函数就是对比字节的函数。当然在对比之前,我们还需要将我们的10张数字图片加载到内存中,便于后续对比,代码如下:
这里的载入我们是按顺序载入的,也就是下标为0的位置存放的就是数字0这个图片的字节数组,以此来推。
下面就是我们载入图片,并进行对比识别的代码:
经过测试,7张图片的识别时间为2200毫秒左右,识别准确率为100%。
写在最后
上面介绍的这种方法只能用于特定的场合,由于不需要做图像处理,所以处理效率肯定是较高的,并且没有使用第三方库,所以项目依赖少。后续会陆续介绍稍微复杂验证码的识别处理方式。
领取专属 10元无门槛券
私享最新 技术干货