Python爬虫-抓取divnil动漫妹子图

作者:zckun

原文:https://www.jianshu.com/p/e7d7616fa9d1

正文

目标网站https://divnil.com

首先看看这网站是怎样加载数据的;

打开网站后发现底部有下一页的按钮,ok,爬这个网站就很简单了;

我们目标是获取每张图片的高清的源地址,并且下载图片到桌面;

先随便打开一张图片看看详细;

emmm,只有一张图

看起来还挺清晰的,单击新窗口打开图片

然后下载图片,说实话,这图片很小,我很担心不是高清原图(管他的);

PS:一定要禁用广告拦截插件,不然加载不出图,我就在这被坑T_T;

接着分析我们从何入手

1、先去主页面获取每个图片的详细页面的链接

这链接还是比较好获取的,直接 F12 审核元素,或者右键查看代码,手机上chrome和firefox在url前面加上 "view-source"

比如:

2、从详细页面获取图片大图地址

随便打开一个图片详细页面如图:

接着按 F12 审核元素,我们需要定位该图片的链接,首先单击左上角的这玩意儿,像一个鼠标的图标:

接着只需要单击网页上的图片就能定位到代码了:

3、用大图地址下载该图片

这个很简单,看代码

先安装 Requests 和 BeautifulSoup 库

导入库

请求获取网页源代码

然后解析出所有图片的详细地址

接着在详细网页里获取那个看似高清的图片的不确定是否为真实图片链接并下载(/滑稽)

主要代码

完成,贴上所有代码

结语

完整代码地址:https://github.com/ZCkun/divnilCrawler

感谢观看此文章 :)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181214A0PNTF00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券