被网站判断为爬虫封锁之后怎么办?

很多时候迫于工作需要,可能会用到很多的资料,这个时候如果采用爬虫程序抓取就可以大大节省工作时间、提高工作效率,但是偶尔也会遇到被网站禁止访问的情况。

现在网上有很多公开教程和程序,可以有一些参考意见,如果不是专业的程序人员,也可以使用专业的数据采集工具。当然不是有了工具就能安稳无忧的,比如说在你抓取了一些资料之后,突然发现自己被网站屏蔽了,同样的链接正常的访问可以进行,但是爬虫却无能为力,只能等几个小时之后再去尝试,所以这种情况下应该怎么办呢?

第一、查看一下请求连接的request、response。最好将爬虫的header和fiddler拦截里的header设置成一样,爬虫的头信息中需要带上referer,很多网站是根据这个做验证的。检查一下请求中的各个参数是否都正确,尝试修改一些参数信息,也可以多对比一些其他的爬虫程序,找出其中的规律,运用到自己的爬虫程序中。编码格式也需要符合网站要求。

第二、设置好时间间隔,毕竟服务器也有一定的承压范围,太频繁的抓取很容易导致网站服务器崩溃,为了维护自己的服务器,这种短时间大量采集数据的方式自然就会被屏蔽。

第三、尝试更换ip地址之后再进行请求,有的网站会根据你当前ip地址的信息来判断是否是爬虫程序,所以可以换一下代理ip的信息再进行操作。在这里提醒一下大家,网上的免费ip稳定性和可用性不高,还是要找正规的提供商,比如说芝麻HTTP代理等等。

最后给大家提个醒,抓取信息要用在正确的途径,不要做一些违法的事情。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180301A0TRS200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券