被网站判断为爬虫封锁之后怎么办？

文章来源：企鹅号 - 芝麻软件

很多时候迫于工作需要，可能会用到很多的资料，这个时候如果采用爬虫程序抓取就可以大大节省工作时间、提高工作效率，但是偶尔也会遇到被网站禁止访问的情况。

现在网上有很多公开教程和程序，可以有一些参考意见，如果不是专业的程序人员，也可以使用专业的数据采集工具。当然不是有了工具就能安稳无忧的，比如说在你抓取了一些资料之后，突然发现自己被网站屏蔽了，同样的链接正常的访问可以进行，但是爬虫却无能为力，只能等几个小时之后再去尝试，所以这种情况下应该怎么办呢？

第一、查看一下请求连接的request、response。最好将爬虫的header和fiddler拦截里的header设置成一样，爬虫的头信息中需要带上referer，很多网站是根据这个做验证的。检查一下请求中的各个参数是否都正确，尝试修改一些参数信息，也可以多对比一些其他的爬虫程序，找出其中的规律，运用到自己的爬虫程序中。编码格式也需要符合网站要求。

第二、设置好时间间隔，毕竟服务器也有一定的承压范围，太频繁的抓取很容易导致网站服务器崩溃，为了维护自己的服务器，这种短时间大量采集数据的方式自然就会被屏蔽。

第三、尝试更换ip地址之后再进行请求，有的网站会根据你当前ip地址的信息来判断是否是爬虫程序，所以可以换一下代理ip的信息再进行操作。在这里提醒一下大家，网上的免费ip稳定性和可用性不高，还是要找正规的提供商，比如说芝麻HTTP代理等等。

最后给大家提个醒，抓取信息要用在正确的途径，不要做一些违法的事情。

发表于: 2018-03-012018-03-01 16:30:23
原文链接：http://kuaibao.qq.com/s/20180301A0TRS200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

被网站判断为爬虫封锁之后怎么办？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐