首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

分享-python爬虫遇到封IP+验证码+登陆限制,如何解决?

现在国家在鼓励做大数据、全面进行数字化中国建设,很多企业包括很多有前瞻性的创业人都开始进军大数据,各种根据自己的擅长领域开始储备数据源,我们需要做大数据第一步就是利用网络爬虫技术解决数据源聚合问题。我2018年主要利用python3+mysql+cookie池+代理IP池自己研发了一套AI智能深度数据挖掘系统,主要是解决企业工商数据源、商标数据源、专利数据源、招标中标数据源、土地数据源、食品药品数据源等多种国家开放的数据源的聚合。当时在做企业工商数据源聚合挖掘时候遇到了封IP、验证码、还有会员登陆等等各种反爬机制,最终我通过各种技术方式解决了所有问题,下面将分享一下个人的一些经验。

05

再见了,打码平台:对抗打码平台的验证码思路

某日,一朋友深夜微信上问我,如果打码平台盯上了你,你该咋整? 政治正确的回答方式是:加强风控策略,多维度判断使用者意图,减低对验证码的依赖。 显然这不是我或者朋友真正想要的,现在不少企业面对打码平台有时候束手无策,只能放弃对验证码的依赖,我觉着有点可惜。 我们先来回顾一下,验证码的学名是啥? 图灵测试。 图灵测试的目的是为了区分人与机器,而打码平台的加入使得这个过程立即无效——打码平台上活跃的对象还真是人。 但这样就没辙了么? No。这“人”与“人”之间是有差别的。我们仔细想想,我们加入验证码的目的其实除

06
领券