利用 tesseract 解析简单数字验证码图片

專 欄

陈键冬,Python中文社区专栏作者

GitHub:

https://github.com/chenjiandongx

tesseract 是一个 OCR(Optical Character Recognition,光学字符识别)引擎,能够识别图片中字符,利用这个可以用来解析一些简单的图片验证码。Github 地址:https://github.com/tesseract-ocr/tesseract,Windows 平台 v3.05.01 版本下载地址:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.01.exe

一开始弄这个是因为学校网络要上网每次都要在网页验证,就想能不能写个程序自动验证免去手动验证过程。但这需要验证码,为了解决这个问题,就上网搜了一下,就看到有用 tesseract 的。有人用 Python 实现了一个工具:https://github.com/madmaze/pytesseract,拿来试了一下,Windows 上使用总是有问题,我就把目光转向了 tesseract 本身,这是它的使用说明:

最后就决定自己实现一个简单的接口

使用方法

对参数解释一下

具体思路

本地图片的,先判断该文件是否存在;网络图片的,下载到本地,默认的保存路径是 r"D:\img.jpg" (保存在哪不重要,只是暂存而已,解析完会自动删除的)

接下来是一些非必要参数

至于为什么只是数字,是因为英文的总是不能完全解析出来,修改了 -l 参数也是没用,使用其自带的 tessdata 也没用,中文的话解析出来的内容完全看不懂... (或许是我打开方式不对?)

效果

测试图片1

测试图片2

测试图片3

温馨提示:不能保证百分百正确,也不能保证百分百解析得出来。所以项目仅供参考!!!要有保证的话还是找打码平台吧

具体代码参见 Github:https://github.com/chenjiandongx/pyocr

原文发布于微信公众号 - Python中文社区(python-china)

原文发表时间:2017-06-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户2442861的专栏

Tesseract:安装与命令行使用

http://www.zmonster.me/2015/04/17/tesseract-install-usage.html

2751
来自专栏Albert陈凯

2018-11-18 你知道Adoc文档是什么吗?

AsciiDoc 是一种轻量级标记语言,它可以让我们以纯文本的形式来书写笔记、文章、文档、书籍、网页、幻灯片和 man 帮助。 本指南是常用的 AsciiDoc...

762
来自专栏小狼的世界

IP地址和CIDR

IPV4的地址是一个32位的二进制数,由网络ID和主机ID两部分组成,用来在网络中唯一的标识一台计算机。IP地址通常用四组3位的十进制数表示,中间用.分割,例如...

2912
来自专栏沃趣科技

Oracle压缩黑科技(三):OLTP压缩

原文链接:https://www.red-gate.com/simple-talk/sql/oracle/compression-in-oracle-part-...

3707
来自专栏Danny的专栏

【软考路上】——用例图之include和extend

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/huyuyang6688/article/...

1063
来自专栏企鹅号快讯

无人驾驶系列——深度学习笔记:Tensorflow的安装-windows系统

前言 近期由个人工作的需要,着手开始研究深度学习相关的内容。也是小白一枚,希望通过文字来记录自己学习过程中踩的坑,给看到的人一点帮助。 ? 目前深度学习框架中,...

2859
来自专栏Jerry的SAP技术分享

有道云笔记不需要通过开通会员的方式来去除广告显示

我最喜欢的功能就是每天上下班在地铁上用手机上的有道云笔记编写文章,然后在笔记本电脑上就能自动同步,在笔记本电脑上继续手机App上的工作。

2.3K2
来自专栏Golang语言社区

【译】用Go实现一个静态博客生成器

静态站点生成器是一种工具,给一些输入(例如,markdown),使用HTML,CSS和JavaScript生成完全静态的网站。 为什么这很酷?一般来说,搭建一个...

6454
来自专栏小白安全

批量检测SQL注入工具

0×01 前言 SQL注入,这个类型的漏洞我真的学了好久好久好久好久,即是我刚刚开始接触安全就学习的第一种漏洞,也是一个迄今为止还在学习的漏洞类型,只...

9536
来自专栏java工会

JVM堆内存使用率持续上升的一种排查思路

最近新版本发布后,在运行一段时间后程序突然无响应了,观察监控,发现JVM堆内存占用在某个时间点突然飙升,最终导致应用无响应:

1270

扫码关注云+社区

领取腾讯云代金券