爬虫教程千千万,一到实战全完蛋?

编程应用、实战教程,不容错过

抓不住数据的我

总是眼睁睁看她溜走

世界上成功的人到处有

为何不能算我一个

为了爬孤军奋斗

早就吃够了反爬的苦

在爬中失落的人到处有

而我只是其中一个

爬要越挫越勇

爬要肯定执着

每一个爬数的人得看透

想爬就别怕伤痛

……

实战的书那么多

能用的没有几个

不要看过了 练过了 留下了

惆怅的我 独自唱悲歌

……

咳~有点飘了,言归正传。

爬虫教程多

爬虫受众多、用途广、入门亦简单。企业的发展野望,让人们想尽一切办法想要获取更多的有关自己、有关竞争对手、有关行业大势的数据,使得网络数据采集这一原本比较偏门的计算机技能越来越得到广大上班族的重视和认可。

由此产生的巨大需求,催生并养肥了几大数据采集软件公司(火车头、八爪鱼等),各个出版社也顺势推出了各自的网络爬虫相关书籍,网上的教程更是满天飞。

其中实战类的书籍和教程,由于生动形象有案例可寻,阅读起来不枯燥,使得很受欢迎。

体验不可控

实战类的爬虫书籍和教程,以互联网上已有的应用作为案例,将网络爬虫涉及到的各个模块和各个知识点融入到真实可接触的应用中,使用阅读体验非常好,尤其适合入门阶段的读者阅读。

但是由于网络爬虫不同于其他的计算机编程开发,接触的对象是不受自己控制的第三方应用,目标网站上变动和改版,都有可能导致一篇行文流畅、讲解透彻、图文俱佳的内容沦为花架子,实践不了,无异于空口讲大道理。

像州的先生上架在百度阅读的《Python网络爬虫与机器学习实战》这本书中的好些例子就因为网站的关闭、改版和升级,导致某些章节的实例读者无法复盘。

作为一个偏实践的书籍,阅读起来没有按照书籍的介绍获得相应的结果,无疑会让体验变差。入门的小伙伴选择实战实践类的书籍,无非是为了以一个较轻松和平缓的方式学习下去。

另一个方式

多年前,在学习渗透测试的时候,发现很多相关的书籍都是配套一个虚拟机镜像,用于读者在学习相关章节的时候,可以使用这个镜像作为实验的场所。

众所周知,渗透测试行业的特殊性使得这方面的书籍介绍的例子绝对不可能是现实世界中真实存在的主机、服务器、应用等,否则轻则违法,重则犯罪。

相应的,各种用于渗透测试和网络安全的靶机或漏洞环境就应运而生了。比较著名的有:

  • DWVA:一个基于MySQL+PHP的Web漏洞环境;
  • OWASP BWA:OWASP组织出品的基于虚拟机的渗透测试演练工具,包含了诸多安全弱点;
  • Vulhub:一个开源漏洞靶场;

从某种程度而言,网络数据采集与渗透测试的行为是很相似的,并且随着Web反爬机制的逐渐升级,对某些网络数据进行采集的过程无异于一次渗透测试的过程。

网络爬虫靶场

那么对于网络数据采集来说,其能有一个类似于渗透测试靶场的环境用来供网络爬虫学习者进行练习和测试,是最好不过了。

一方面,确保学习爬虫的小伙伴能够有一个稳定的环境来练习和测试所学习和了解到的技术,不会因为某些网站的变动而导致练习无法进行;

另一方面,随着法律的健全和完善,一个用于练习的环境还能够避免在进行数据采集的时候触碰到法律的红线。

以此,州的先生正在准备搭建一个网络爬虫靶场,初步计划将网络爬虫涉及到的HTTP请求HTML解析JSON解析登录认证JS加密反爬webdriver识别验证码识别等各类问题,用实验示例的方式呈现出来,供学习网络数据采集的小伙伴进行练习。

一个人的力量始终是微小薄弱的,所接触到的网站肯定也是不够全面的,所以在此特别向小伙伴们征集网络数据采集的案例。

对于一个需要进行数据采集的网址而言,其内容可以是:

  • 网址及其描述;
  • 网址和其调用的所有JS文件;

原文发布于微信公众号 - 州的先生(zmister2016)

原文发表时间:2019-04-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券