经常有人问这样的问题:你家代理IP是高匿的吗?为什么我才爬一会就被识别了?你确定你家代理IP是百分之百高匿吗?
如何判断一个代理IP是否高匿呢?众所周知,透明代理IP会暴露客户端真实IP和正在使用代理IP,普匿代理IP暴露客户端正在使用代理IP,高匿代理IP什么都不会暴露,这又是根据什么来判断的呢?
其实想要识别代理IP的匿名等级并不复杂,识别的办法就是抓数据包里的相关字段:REMOTE_ADDR,HTTP_VIA以及HTTP_X_FORWARDED_FOR。
1、透明代理
REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Your IP
2、普通匿名代理
REMOTE_ADDR = proxy IP
HTTP_VIA = proxy IP
HTTP_X_FORWARDED_FOR = proxy IP
3、高匿代理
REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined
但即使知道了正在使用的代理IP是高匿代理IP,还是有很多人会问出这样的问题:代理IP可以百分之百高匿吗?为什么会这样问呢,因为他们在使用高匿代理IP进行爬虫工作时,代理IP被限制访问了,自然就会怀疑这个代理IP高匿得不够彻底,没有百分之百高匿。
代理IP池里的IP是可以达到百分之百高匿的,这并不难实现,但代理IP是没有办法百分之百不被限制的,这是因为目标网站的反爬策略,不仅仅是看用户是否使用了代理IP,主要还是看用户的访问行为,以及会设置一些其他策略,如果使用高匿代理IP触发了这些策略,依然会受到限制。
领取专属 10元无门槛券
私享最新 技术干货