首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫被封杀IP的24小时

作为一只爬虫就知道会有这么一天,网站403拒绝访问,美滋滋的无脑抓数据的日子就此结束。

网站:IP已死。

换用手机热点提供的IP,爬虫又活了过来,毫无疑问旧的IP已被封杀,起因只有一个——短时访问频率过高。

谁曾想,这个原因竟然是优化代码引发的。之前粗暴、冗余的数据库写入方式虽不优雅,却鬼死神差拖延了时间。程序每次获取数据,都需要等待数据库慢慢的插入,降低了再次访问页面的频率。优化了数据库写入,访问网站间隔太短而导致的GG,画个图示意一下

IP被封怎么办?

爬虫:是谁掐住了我命运的咽喉

最简单的思路就是物理切换,一个IP被封就换新的IP。所以手机开了新的热点4G网络新IP,爬虫就能短暂复活。为了长期稳定获取数据,还是需要一个真实有效的IP池提供有效的IP列表,再通过调度算法分配抓取任务,降低每个IP访问网站的频次,共同维护一份完整的数据库。如果有4个独立IP可运行程序,就是这个样子

爬虫:4个兄弟轮流上,嘻嘻

爬虫:啥?每天最多100次啊,帮我加个计数器,99了让我下去。

调度系统:明白,已安排~

可是爬虫啊,命始终在人家手里...

爬虫:不不不,只要数据公开,一个我倒下了,换个马甲还能战

调度系统:如果源头彻底断了,你就就只剩下过去的残骸。

这就是爬虫工程师项目最大的风险。

你懂我的意思吧。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180728G07AUF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券