Python验证码识别处理实例

一、准备工作与代码实例

1、PIL、pytesser、tesseract

(1)安装PIL:下载地址:http://www.pythonware.com/products/pil/(CSDN下载)

下载后是一个exe,直接双击安装,它会自动安装到C:Python27Libsite-packages中去,

(2)pytesser:下载地址:http://code.google.com/p/pytesser/,(CSDN下载)

下载解压后直接放C:Python27Libsite-packages(根据你安装的Python路径而不同),同时,新建一个pytheeer.pth,内容就写pytesser,注意这里的内容一定要和pytesser这个文件夹同名,意思就是pytesser文件夹,pytesser.pth,及内容都要一样!

(3)Tesseract OCR engine下载:http://code.google.com/p/tesseract-ocr/(CSDN下载)

下载后解压,tessdata文件夹,用其替换掉pytesser解压后的tessdata文件夹即可。(就上面的pytesser文件夹)

二、验证

(1)原理:

验证码图像处理

验证码图像识别技术主要是操作图片内的像素点,通过对图片的像素点进行一系列的操作,最后输出验证码图像内的每个字符的文本矩阵。

1、读取图片

2、图片降噪

3、图片切割

4、图像文本输出

(2)验证字符识别

验证码内的字符识别主要以机器学习的分类算法来完成,目前我所利用的字符识别的算法为KNN(K邻近算法)和SVM (支持向量机算法),后面我 会对这两个算法的适用场景进行详细描述。

1、获取字符矩阵

2、矩阵进入分类算法

3、输出结果

要验证的图片如下:

(3)、简单的命令:

然后运行:

或者直接:

同样能输出结果!

(4)、复杂一点的

上面的只能对一些比较简单的做处理,一原理:彩色转灰度,灰度转二值,二值图像识别

运行后效果:

end

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2016-01-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数说工作室

Python &R 代码 对照速查表

推荐一篇文章,文中将常用机器学习算法的Python和R代码对照整理成一个表,方便查找和对比学习,原文还有PDF的下载。 (版权归原作者所有,点击文末阅读原文查看...

42660
来自专栏瓜大三哥

图像分割(四)

图像分割(四) 之基于FPGA的局部自适应分割 子模块设计 窗口缓存模块win_buf 本模块不做任何算法上的处理,只是负责将当前输入像素的二维窗口元素缓存并组...

25180
来自专栏程序生活

TensorFlow教程(十二) 随机数实例

tf.random_uniform([4,4], minval=-10,maxval=10,dtype=tf.float32)))返回4*4的矩阵,产生于-10...

9710
来自专栏AIUAI

GPU 显存 - Caffe 内存优化

58060
来自专栏机器学习养成记

关联分析(3):Apriori R语言实现

我们对UCI机器学习库上下载的美国众议院议员投票记录数据,进行关联分析。在R中,可以直接调用arules包中的apriori()函数训练模型。

15120
来自专栏人工智能LeadAI

TensorFlow从0到1 | 第十七章 Step By Step上手TensorBoard

上一篇 16 L2正则化对抗“过拟合 ”提到,为了检测训练过程中发生的过拟合,需要记录每次迭代(甚至每次step)模型在训练集和验证集上的识别精度。其实,为了能...

55870
来自专栏AI研习社

一个应用于物体识别的迁移学习工具链

迁移学习指的是,通过对预训练模型的参数进行微调,将训练好的模型应用到相似或者只有细微差异的不同任务中。通过这个方法,我们可以基于一些性能顶尖的深度学习模型得到别...

14220
来自专栏cs

python数据分析画图体验

37270
来自专栏MixLab科技+设计实验室

自己动手做一个识别手写数字的web应用02

继续上文。 自己动手做一个识别手写数字的web应用01 01 再次进入docker容器 接着上一篇文章,我们继续使用上次新建好的容器,可以终端输入 : d...

43770
来自专栏人工智能

基于自制数据集的MobileNet-SSD模型训练

“本文主要内容:基于自制的仿VOC数据集,利用caffe框架下的MobileNet-SSD模型训练。” 本文的base是https://github.com/c...

3.4K100

扫码关注云+社区

领取腾讯云代金券