前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[Pholcus爬虫] 应对网站反爬虫的多项策略

[Pholcus爬虫] 应对网站反爬虫的多项策略

作者头像
henrylee2cn
发布2019-04-04 15:19:03
5060
发布2019-04-04 15:19:03
举报
文章被收录于专栏:Go实战Go实战

Pholcus应对网站反爬虫的核心思想就是:模仿人工操作

具体应对策略如下:

  1. 两次请求之间进行随机暂停 ,该时间可以在操作界面设置
  2. 当不需缓存cookie时,设置Spider.EnableCookie=true,下载器将会自动更换User-Agent
  3. 支持代理IP,其可以在操作界面设置更换IP的时间频率
  4. 自动添加请求头的Referer信息
  5. 下载器除Go原生内核外,还提供了PhantomJS内核,它可以直接提交含有一些隐蔽、加密的请求参数,提供请求通过率
  6. 规则内可以通过主动设置定时器,来控制采集时间

(adsbygoogle = window.adsbygoogle || []).push({});

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016/09/02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档