00:00
OK,同学们,那么刚才呀,我们破解这个古诗文是咋破解的呢?是不是用这个request的session呢,对吧?其实我们现在呀,很多企业级开发来说呢,呃,它并不是说让我们人为的去输入一些内容啊,不是这样的,呃,因为这样的话,有的时候或者说写一些算法,就是识别率比较低,所以大部分同学呢,我们需要掌握一种啥呀,一种破解这个验证码的平台啊,都可以,公司是这么做的哈,所以说在这儿呢,接下来我带各位同学体验一下,说公司我们一般是怎么做这种打码平台的。来。来看啊,接下来我们用这种叫超级英啊,超级英来我们来登录一下啊,这个账号呢,如果有同学想试的话也可以啊,我也可以告诉各位同学,呃,我的用户名是action,我的密码也是action,然后呢,这个验证码R6MB啊,然后登录一下,好,我教大家这个怎么去用啊,怎么去用。
01:05
怎么去用这种类似的打码平台,所有打码平台现在基本上都是一个用法,呃,我们直接点开发文档,呃点完开发文档之后呢,在这儿我们要点啥?它有各种各样的语言的开发的一个事例啊,有PHP的,有Java的,有VB的,有什么这个Python的等等等等,都等都用哈,我们用啥用Python点完它之后大家注意啊,你在这儿你看是不是有什么Python的一个下载啊,什么都可以啊,然后在这呢,我们来点一下,点这里下载,嗯,点完之后呢,大家先不用着急啊,我们就等着哈,等它啥时候下完了我们再看,嗯,稍等一下哈,诶,OK,是不是下载完了,各位在这里了啊,下载完了。我给它剪切一下啊,剪切一下我给它放到桌面上啊,放到桌面上啊,放桌面给它剪压缩。OK,解完压缩之后呢,在这儿基本上有什么read me啊,什么读我呀,这些东西我们暂时先不用去管它,在这儿呢,已经有写好的Python文件了,加上一张图片,哎,就是他就让你识别这个啊,识别这个,然后我把这两个东西呢,给它复制到我们现在的这个文件中啊,给它粘贴过来,OK,咱就它了哈,那在这我们先不着急啊,我们先不着急,我们打开一下都看都有什么东西哈。
02:27
然后拿过来,呃,在这儿呢,前边这个几乎不用去看,我们看的是啥呢?大家看哈,第一个说超级英的用户名,那我们是不是叫action呢,对吧,我们的密码是不是也是action呢?对吧?有同学老师这第三个是啥,大家把后边这句话看一下啊。嗯,我把它拿到这个上边。好,它是用户中心下边有个软件ID,生成一个要替换96001,那也就是说我们是不是在这里边有一个用户中心什么的呀,对吧?用户这轴用户中心,用户中心下边的什么呢?大家注意啊,一般情况下我们在这有个软件ID,你看它提示了用户中心下边有个软件ID,来我们点软件ID在这里边呢,我们随便这这是不是生成呢?包括之前我们也用过哈,呃,之前还爬过其他什么天眼查等等等等,来生成一个这个起个啥呢?起一个这叫TEST1,然后什么都不用管啊,点提交,好同学们看在这儿是不是生成了一个软件ID呀,对吧,各位来我们把它复制一下,复制完之后呢,现在我把它替换成它,诶这就是属于你账号中,你需要干啥呀,用的东西还有一个就是啥,这里边是报错了,报错的原因在这儿了,它显示了说啊这个是三点。
03:51
自家版本print后边要加个啥呀,圆括号啊,我们现在不是3.7版本嘛,对吧,我们要给它加一个圆括号。
04:02
加一个引号OK,同学们是不是就不报错了呀,对吧?好,我们改一般现在啊同学们你要注意啊,现在的这种打码平台都是啥呢?都是使用的类似改个它改个它改个软件ID就可以了啊,其他不用去管,那么我们现在这个图片是7261,我干啥呢?我给它运行一下看是不是走。嗯,同学们一看这样是不是返回了一个7261啊,但是有同学老师你这是不是错了呀,大家别着急啊,他给你返回的不是一个字典吗?对吧,那我们可以干啥呀,你返回的这个字典,我是不是直接可以点get get里边叫啥来着?我们找一下是不是叫P车str啊,给它改呗,P车str来再运行一下走,你我发现是不是7261,诶这就可以识别了,像这种东西我们不需要去做太多啊,直接引用这种呃文件就可以了,可以调用它的,呃,但是呢,还有一件事情。
05:03
同学们,我们来找找其他的东西啊,什么首页,首页里边还有没有,有什么其他东西没有啊好,呃,这里边还有价格体系,大家来看一下啊,我们现在是不是1902是吧,还有什么这种东西啊,它分别是啥呢?哪儿写着190在这儿了,1902大家注意啊,因为我现在我充值的这个里边它不太一样,我们来看一下我们自己哈。看我们充值的这个东西,诶,用户中心,用户中心现在我们这里边儿有多少5900分,5900分里边大家注意啊,每次用多少分,是属于啥呢?看这里。如果你是1902的,那根据啥呢?根据你的这个这个数字456分别对应的是十,12和15分,然后这个现在一到一位英文数字是十分一到40分,一到52分,一到65分,一到77.5,这每次都会给你扣扣的,如果说你在这里边还有你是纯汉字的话,扣十分一到两位汉字扣20分给你花钱啊,你不花钱肯定是不行的,那在这里边呢,还有纯英文的对吧?还有这个纯数字的,这里边都有,哎是其他的类型坐标的对吧?还有计算题的,复杂计算题的自选一的,哎,不定常汉字的这种拼音的,这个都有集装箱号的是吧?还返回多个坐标的,哎,这个都能去做,所以说未大家注意哈,就是现在我们做企业级爬虫的话啊,企业级爬虫的话,就是像这种验证码,基本上我们没有人去自己去识别,去训练。
06:43
为啥成本太高了,如果说你写一套算法哈,然后呢,你来识别这个验证码,它识别率大概也就在50%~60%之间,那其实这样的就大大的浪费了我们所谓的这个这个性能也是效率,所以说一般情况下验证码识别呢,我们都会去第三方平台啊,去买一些这种破解的东西啊呃,还有像云打码啊,像一些这个其他的云服务啊,都有这种识别的这样一个东西啊啊所以说大家知道一下就就行了解也就可以了啊好同学们以上呢跟大家介绍了一个超级鹰的这样一个识别平台啊,如果以后呢,大家要从事爬虫的这个行业的话,你要知道如何去用它啊,如何用它,好同学们,那我把这个视频暂停一下。
我来说两句