15 分钟破解网站验证码

文章来源：企鹅号 - 程序员宝库

作者： xiaochao

概述

很多开发者都讨厌网站的验证码，特别是写网络爬虫的程序员，而网站之所以设置验证码，是为了防止机器人访问网站，造成不必要的损失。现在好了，随着机器学习技术的发展，机器识别验证码的问题比较好解决了。

样本采集工具

这里我们采用wordpress的Really Simple CAPTCHA生成验证码的插件，之所以选择这个插件，一个是它的安装量很大，二个是因为它是开源的，我们可以利用它批量的生成验证码图片。

目标估计

我们通过demo网站得知，Really Simple CAPTCHA生成的是包含4个数字或者字母的图片，通过阅读源码得知，这个插件还屏蔽了O和I这两个比较容易混淆的字母，也就是说，还剩下32个字符，看来可以完成。

目前花费了两分钟。

依赖

我们要用到以下的工具和库。

python3

opencv

keras

tensorflow

创建样本集

为了达到目的，我们首先要准备样本集，样本如下：

使用Really Simple CAPTCHA插件的源码，我们很方便的批量生成10000个验证码图片和对应的结果，待我们生成完成后，大概如下：

这地方大家可以根据自己的实际情况修改Really Simple CAPTCHA插件的源码，来生成自己想要的样本集。如果你觉着麻烦，也可以下载我生成好的。

目前为止，我们花了五分钟。

如何训练

我们现在有了样本集了，我们可以直接那图片和对应的结果直接进行神经网络的训练。

只要我们的样本够多，最终也能达到我们想要的效果。

但我们也可以采用更好的训练方法，这个训练方法使用更少的样本数据，但是结果要比直接训练的方法好很多，我想你已经猜到了，这个方法就是把图片中的四个字符切割开，形成四个样本。这方法之所以可行，是因为所有的验证码图片都是4个字符的。

10000张图片，一张一张手动用PS去切割，肯定不现实，而且由于图片的横向排列并不是等间距的，字符间的距离大小不一致，手动切割肯定不可能了。

其实我们只要画出一个矩形，保证矩形框里只有字符就可以，然后从图片中切出这样的一个矩形，就形成了一个单个字符的图片样本。幸运的是，这个操作opencv已经帮我们实现了，opencv有个函数叫做findContours()，可以按照同样色值的区域裁剪我们想要的矩形。

首先准备一个图片：

转换图片为黑白色。这样有字符的地方为黑色，空白为白色，便于opencv裁剪。

接下来我们用opencv的findContours函数切割图片。

接下来，我们就把图片从左到右进行切割，并存储切割后的图片，以及图片对应的字符。但是实际操作的过程中，我发现一个问题，就是有时候两个字符靠的太近，导致opencv在切割的时候，把两个字符切割刀一个图片里了，比如：

切割完的效果是：

如果不解决这个问题，我们的样本集就不准了，那训练出来的模型也就不可能正确了。我的解决方法是，首先设置一个字符宽最大的像素，如果超过这个像素，则认为一个图片中包含了两个字符，然后我们选择把这个图片对半切割，分成两个字符。例如：

好，我们现在得到了一个验证码图片对应的4个字符的图片，现在我们把所有的样本图片都切割好，然后，把相同的字符对应的图片放到一个文件夹，这么做的目的是尽量多的找出同一个字符的多种样式。结果如下：

到目前为止，我花了10分钟。

训练模型

因为我们只是识别图片对应的数字或者字母，所以我们不需要特别复杂的神经网络算法。识别字符比识别小猫小狗的简单多了。

我这地方使用卷积神经网络，two convolutional layers and two fully-connected layers。

这地方对卷积神经网络算法就不做详细介绍，感兴趣的同学，可以google学习一下。

训练完成后，我们需要测试一下。15分钟花完。

总结

整个过程看起来很简单：

从使用我们上述提到的插件的wordpress网站上下载验证码图片

把图片切割成包含单个字符的小图片

使用神经网络算法训练模型

预测新的验证码图片对应的字符

下面是我的测试：

代码

你可以从这得到完整的代码和示例图片，你可以参照README来运行相关的程序。

英文原文

下载代码

觉得本文对你有帮助？请分享给更多人。

关注「程序员宝库」公众号，直接获取各种编程资料！

发表于: 2018-01-162018-01-16 20:32:06
原文链接：http://kuaibao.qq.com/s/20180116A0V9B800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

15 分钟破解网站验证码

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐