Python网络爬虫-利用pytesseract进行网站验证码识别

Python-tesseract是一个基于google’s Tesseract-OCR的独立封装包; Python-tesseract功能是识别图片文件中文字,并作为返回参数返回识别结果; Python-tesseract默认支持tiff、bmp格式图片,只有在安装PIL之后,才能支持jpeg、gif、png等其他图片格式。

安装PIL及pytesseract

安装tesseract-OCR软件

pytesseract实际上调用的是tesseract-OCR的内部函数,故在进行网站验证码识别时,需提前安装好tesseract-OCR软件。

安装包下载

安装包地址

安装

执行默认安装即可,需要记住安装目录,以便于后面配置环境变量。

配置环境变量

控制面板-系统-高级系统设置-环境变量-系统变量

‘Path’-新建-将tesseract-OCR安装目录添加进去,如’C:\Program Files (x86)\Tesseract-OCR’

cmd打开命令提示符界面,输入:

可以看到版本信息。

网站验证码识别

在源代码中设置训练数据集的路径

修改pytesseract.py,否则会报错:

修改部分如下:

测试

测试图片如下:

代码如下:

可以看出,识别结果有误,故需要对图片进行预处理:

处理后的图片如下:

此时,识别结果正确。

详细代码及说明可访问我的GitHub:https://github.com/Ruanshubin

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181006G0FUMF00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券