从事爬虫虽然时间不长,但是经历的项目都具有特例性,从亿级数据采集到各种伪造隐藏技术,从极验验证码破解到淘宝百度等反爬虫破解,从分布式架构部署到多种ip跟换技术,从普通请求到js破解和自动化模拟,这些主流技术都有亲身经历。因此不才去尝试写这份技术指南。
因在公司有需求培养新人从爬虫技术入手,因此特地制作本系列教程,学技术重在广而精,因此先综述爬虫技术的技术栈,之后对需要分析以及灵活的技术进行样例演示解说。
技能树总图:
红色为常用 ,爬虫技能树-总览图.graffle我是由mac中omnigraffle软件创建的
总结而言,常用的一系列工具为:
分析工具:
请求工具:
分布式工具:
数据抽取工具
模拟浏览器
异步
ip更换技术
原创文章,转载请注明: 转载自URl-team