使用Tesseract,验证码识别So Easy

前言:

在对网站数据进行爬取的过程中,由于访问过于频繁或是其他的原因,经常会出现输入验证码进行验证的情况,面对这种验证码验证的问题,一般有三种解决方法:

第一种,最简单也是最费时的,手动输入验证码;

第二种,使用一些公司的API接口对验证码进行判别和输入;

第三种,使用tessract对验证码进行识别;

在这里,我们使用tessract对验证码进行识别。

Tesseract简介:

tesseract是谷歌开源的一个ORC组件,并支持语言的训练,支持中文的识别(需要下载语言包)

Python中使用Tesseract:

在Python中安装Tesseract一共分为三步:

1、pip安装pytesseract及其他依赖库

pip pytesseract

在使用pytesseract中需要读取图像,所以还需要安装Pillow

2、安装tesseract

下载并安装:https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe

3、修改tesseract.py文件

# tesseract_cmd = 'tesseract'

tesseract_cmd = "C:/Program Files (x86)/Tesseract-OCR/tesseract.exe" # tesseract的安装目录

防止提示没有匹配的文件

# f = open(output_file_name)

f = open(output_file_name,encoding='utf-8')

防止提示Unicode编码错误

做完这三步,就可以使用tesseract基本的功能了。

下面来看看在实际的代码中如何利用tesseract进行验证码识别:

原始的验证码图像为:

示例验证码为:

#coding:utf-8

'''

验证码识别

'''

from PIL import Image,ImageFilter,ImageEnhance

import pytesseract

# 二值化

threshold = 140

table = []

for i in range(256):

if i < threshold:

table.append(0)

else:

table.append(1)

# 识别验证码

def get_vcode():

# 打开原始图像

image = Image.open("getimgbysig.jpg")

# image = Image.open("e:/a.jpg")

# 将图像转为灰度,并另存为

bimage = image.convert('L')

bimage.save('g'+"getimgbysig.jpg")

# 进行二值化处理,并另存为

out = bimage.point(table,'1')

out.save('b'+"getimgbysig.jpg")

icode = pytesseract.image_to_string(image)

bcode = pytesseract.image_to_string(bimage)

vcode = pytesseract.image_to_string(out)

print(icode,bcode,vcode)

if __name__ == '__main__':

get_vcode()

结果为:7364

对于简单、清晰的数字,没有经过任何训练的Tesseract还是能够很精确地识别出来。而对于那些模糊、变形的数字、字母或是中文,就需要先对Tesseract进行训练了,暂且不表。

原文发布于微信公众号 - 州的先生(zmister2016)

原文发表时间:2016-12-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人人都是极客

第三课:把tensorflow,模型和测试数据导入Android工程

关于Android项目的创建这里就不做赘述了,我们直接进入主题,看下如何把机器学习库和训练的模型导入一个安卓应用中。 导入 Inference Interfac...

35812
来自专栏AI研习社

Github 项目推荐 | 用 Python 实现的大规模线性回归、分类和排名库 —— lightning

Lightning 稳定版本的预编译二进制文件在主要平台可用,需要用 pip 安装:

861
来自专栏XAI

Java分布式神经网络库Deeplearning4j 环境搭建和运行一个例子

DeeplearningforJava简单介绍: deeplearning4j是一个Apache 2.0-licensed,开源的,分布式神经网络库编写的jav...

2748
来自专栏二进制文集

Caffe MNIST 简要分析

MNIST database,一个手写数字的图片数据库,每一张图片都是0到9中的单个数字。每一张都是抗锯齿(Anti-aliasing)的灰度图,图片大小282...

692
来自专栏贾志刚-OpenCV学堂

基于OpenCV与tensorflow实现实时手势识别

基于OpenCV与tensorflow object detection API使用迁移学习,基于SSD模型训练实现手势识别完整流程,涉及到数据集收集与标注、V...

1255
来自专栏Y大宽

多序列比对,进化树分析,保守性,密码子偏好性分(1)

打开https://www.ncbi.nlm.nih.gov/protein,输入BopA,search

1032
来自专栏软件开发

C语言 第四章 分支结构练习

一、输入语文,数学成绩,根据平均分分3档 #include "stdio.h" void main() { //接受用户输入 float chi...

17410
来自专栏人工智能

第三课:把tensorflow,模型和测试数据导入Android工程

关于Android项目的创建这里就不做赘述了,我们直接进入主题,看下如何把机器学习库和训练的模型导入一个安卓应用中。 导入 Inference Interfac...

2218
来自专栏AI科技大本营的专栏

实战 | 手把手教你用苹果CoreML实现iPhone的目标识别

在WWDC 2017上,苹果首次公布了机器学习方面的动作。iOS系统早已支持Machine Learning 和 Computer Vision ,但这次苹果提...

5518
来自专栏大数据文摘

机器学习:如何在安卓上集成TensorFlow

2165

扫码关注云+社区