如何爬取一个网站上的所有资源?——彼岸图网爬取记

这个网站是我和文亮今年1月2号的爬的一个网站,我不会告诉你第一个网站是个妹子图网站,爬到了40万~60万张图片。。。这个彼岸图网的图片比较少,大概是2万张,我记得。

又是一个激动人心的夜晚,这是振兴和我爬取的第2个网站:

[]。

基础爬虫的套路:通过copy命令得到网页源代码,然后将源代码读入Stata,进行字符串的处理,最终整合成我们需要的信息。这是我爬取的第2个网站,是因为第1个是 [] ,不过最后命令写完了才发现,copy命令并不能爬取到我们所要的图片(因为妹子图设置了防盗链)。看来“网络爬虫最难的不是字符串处理,而是如何得到目标数据的源代码。”真是灵验,后续这个问题我们用curl命令解决。

所以目前我们可随便的从彼岸图网找一张图片,比如[这张]:(http://pic.netbian.com/d/file/dbigfile/9de3a4a8226155e21baecd3a6ab6fd9a.jpg):

使用命令:

发现可以copy下来(说明没有设置反爬),方有后文。

思路如下:爬取彼岸图网类别和每个类对应的网址信息,然后在每个类下爬取每个图片的链接和每个类的页数。本来看到这个网站更新了,想写点啥,后来发现每个类的页数是爬出来的,实在没什么好写的了。。。代码如下(理解后面总结的第一点后对代码的整体能更好的把握):

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180225G0V0BZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券