如何爬取一个网站上的所有资源？——彼岸图网爬取记

文章来源：企鹅号 - 程振兴

这个网站是我和文亮今年1月2号的爬的一个网站，我不会告诉你第一个网站是个妹子图网站，爬到了40万～60万张图片。。。这个彼岸图网的图片比较少，大概是2万张，我记得。

又是一个激动人心的夜晚，这是振兴和我爬取的第2个网站：

[]。

基础爬虫的套路：通过copy命令得到网页源代码，然后将源代码读入Stata，进行字符串的处理，最终整合成我们需要的信息。这是我爬取的第2个网站，是因为第1个是 [] ，不过最后命令写完了才发现，copy命令并不能爬取到我们所要的图片（因为妹子图设置了防盗链）。看来“网络爬虫最难的不是字符串处理，而是如何得到目标数据的源代码。”真是灵验，后续这个问题我们用curl命令解决。

所以目前我们可随便的从彼岸图网找一张图片，比如[这张]:(http://pic.netbian.com/d/file/dbigfile/9de3a4a8226155e21baecd3a6ab6fd9a.jpg):

使用命令：

发现可以copy下来(说明没有设置反爬)，方有后文。

思路如下：爬取彼岸图网类别和每个类对应的网址信息，然后在每个类下爬取每个图片的链接和每个类的页数。本来看到这个网站更新了，想写点啥，后来发现每个类的页数是爬出来的，实在没什么好写的了。。。代码如下（理解后面总结的第一点后对代码的整体能更好的把握）：

发表于: 2018-02-252018-02-25 19:59:22
原文链接：http://kuaibao.qq.com/s/20180225G0V0BZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

如何爬取一个网站上的所有资源？——彼岸图网爬取记

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐