前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据采集技术指南 第一篇 技术栈总览-附总图和演讲ppt

数据采集技术指南 第一篇 技术栈总览-附总图和演讲ppt

作者头像
十四君
发布2019-11-28 19:17:07
4990
发布2019-11-28 19:17:07
举报
文章被收录于专栏:UrlteamUrlteam

从事爬虫虽然时间不长,但是经历的项目都具有特例性,从亿级数据采集到各种伪造隐藏技术,从极验验证码破解到淘宝百度等反爬虫破解,从分布式架构部署到多种ip跟换技术,从普通请求到js破解和自动化模拟,这些主流技术都有亲身经历。因此不才去尝试写这份技术指南。

因在公司有需求培养新人从爬虫技术入手,因此特地制作本系列教程,学技术重在广而精,因此先综述爬虫技术的技术栈,之后对需要分析以及灵活的技术进行样例演示解说。

技能树总图:

红色为常用 ,爬虫技能树-总览图.graffle我是由mac中omnigraffle软件创建的

总结而言,常用的一系列工具为:

分析工具:

  • xpath测试chrome插件xpath helper
  • 请求头伪造chrome插件 Modify Headers for Google Chrome
  • post和参数调节工具 postman
  • scrapy 的shell
  • 开发者工具

请求工具:

  • requests 网络包
  • urllib2 网络包

分布式工具:

  • redis 基于内存的数据库
  • mysql  数据库
  • docker 部署工具,

数据抽取工具

  • re 正则表达式
  • lxml xpath抽取

模拟浏览器

  • phantomjs
  • selenium
  • ghost

异步

  • threading
  • Twisted

ip更换技术

  • 代理,adsl,tor,V**,加速器

原创文章,转载请注明: 转载自URl-team

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-03-042,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档