前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >识别验证码继续爆破后台(三)

识别验证码继续爆破后台(三)

作者头像
Jumbo
发布2018-07-26 09:38:19
9770
发布2018-07-26 09:38:19
举报
文章被收录于专栏:中国白客联盟

前言

前戏回顾

识别验证码继续爆破后台

识别验证码继续爆破后台(二)

正文

有的时候,并不是说所有验证码用api或者tesseract都可以正确识别出来的,还是需要经过相关训练,让tesseract知道你想让它识别出来的验证码。

首先安装tesseract和其训练工具

brew install tesseract --with-training-tools

直接用命令识别验证码

tesseract 1.jpg 1

发现识别还是有点问题

我们利用jTessBoxEditor进行训练

首先我们先下载点图片下来

然后把要训练的图片合为tif格式

保存文件名为[lang].[fontname].exp[num].tif,如yuyan.ziti.exp0.tif

使用命令生成box文件

tesseract yuyan.ziti.exp0.tif yuyan.ziti.exp0 batch.nochop makeboxbox文件为各个分割出来的内容的坐标

利用jTessBoxEditor打开tif文件来对内容进行纠正并保存。

PS:x往左右移动大小不变, y上下移动大小不变,w往左右扩张 ,h上下扩张。

使用命令训练生成tr文件

tesseract yuyan.ziti.exp0.tif yuyan.ziti.exp0 nobatch box.train

使用命令输出字符集

unicharset_extractor yuyan.ziti.exp0.box

创建font_properties文件来表示字体样式信息。

内容为

ziti 0 0 0 0 0

使用命令创建聚类

shapeclustering -F font_properties -U unicharset –O yuyan.unicharset yuyan.ziti.exp0.tr

使用命令创建特征

mftraining -F font_properties -U unicharset yuyan.ziti.exp0.tr

使用命令输出数据文件

cntraining yuyan.ziti.exp0.tr

把unicharset, inttemp, normproto, pffmtable,shapetable这四个文件加上前缀"ziti"

使用命令生成语言包

combine_tessdata ziti.

复制traineddata文件到tesseract-OCR字体目录

先不用我们的字体识别一下试试

使用-l指定我们的字体包试试

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 中国白客联盟 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
验证码
腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档