Python网络爬虫-利用pytesseract进行网站验证码识别

文章来源：企鹅号 - 行走的思想者

Python-tesseract是一个基于google’s Tesseract-OCR的独立封装包； Python-tesseract功能是识别图片文件中文字，并作为返回参数返回识别结果； Python-tesseract默认支持tiff、bmp格式图片，只有在安装PIL之后，才能支持jpeg、gif、png等其他图片格式。

安装PIL及pytesseract

安装tesseract-OCR软件

pytesseract实际上调用的是tesseract-OCR的内部函数，故在进行网站验证码识别时，需提前安装好tesseract-OCR软件。

安装包下载

安装包地址

安装

执行默认安装即可，需要记住安装目录，以便于后面配置环境变量。

配置环境变量

控制面板-系统-高级系统设置-环境变量-系统变量

‘Path’-新建-将tesseract-OCR安装目录添加进去，如’C:\Program Files (x86)\Tesseract-OCR’

cmd打开命令提示符界面，输入：

可以看到版本信息。

网站验证码识别

在源代码中设置训练数据集的路径

修改pytesseract.py，否则会报错：

修改部分如下：

测试

测试图片如下：

代码如下：

可以看出，识别结果有误，故需要对图片进行预处理：

处理后的图片如下：

此时，识别结果正确。

详细代码及说明可访问我的GitHub：https://github.com/Ruanshubin

发表于: 2018-10-062018-10-06 09:43:44
原文链接：https://kuaibao.qq.com/s/20181006G0FUMF00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python网络爬虫-利用pytesseract进行网站验证码识别

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐