Python图像处理:图片验证码识别

本文将具体介绍如何在Python中利用Tesseract软件来识别验证码(数字加字母)。

我们在网上浏览网页或注册账号时,会经常遇到验证码(CAPTCHA),如下图:

本文将具体介绍如何利用Python的图像处理模块pillow和OCR模块pytesseract来识别上述验证码(数字加字母)。

我们识别上述验证码的算法过程如下:

将原图像进行灰度处理,转化为灰度图像;

获取图片中像素点数量最多的像素(此为图片背景),将该像素作为阈值进行二值化处理,将灰度图像转化为黑白图像(用来提高识别的准确率);

去掉黑白图像中的噪声,噪声定义为:以该点为中心的九宫格的黑点的数量小于等于4;

利用pytesseract模块识别,去掉识别结果中的特殊字符,获得识别结果。

  我们的图片如下(共66张图片):

完整的Python代码如下:

运行结果如下:

我们可以看到图片识别的正确率为80%以上,其中数字类图片的识别正确率为100%。

我们可以在图片识别方面的算法再加改进,以提高图片识别的正确率。当然,以上算法并不是对所有验证码都适用,不同的验证码需要用不同的图片处理算法。

每日分享一篇优质好文,共同交流与进步

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180619G1VP9800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券