斗图会输?不存在的

本文概要

前言:

本文非常浅显易懂,可以说是零基础也可快速掌握。如有疑问,欢迎留言,笔者会第一时间回复。本文代码存于github

一、分析表情包网址

进入斗图啦

1、进入斗图啦网址,点击“最新表情”,再点击第二、第三页,得出规律如下:

第一页:https://www.doutula.com/photo/list/?page=2

第三页:https://www.doutula.com/photo/list/?page=3

第四页:https://www.doutula.com/photo/list/?page=4

可以看出,page的值跟点击的页数有关,因此,我们就拿到了要爬取的url

2、打开检查元素,可以看到html源码

html源码

可以看出,每一页的图片都在 div 标签里面,然后每一个 a 标签包含一个图片,

html源码

我们要取到表情包,就是要取得 a 标签包含的图片 url,我们可以利用xpath语法。

二、实践

a、获取 img 标签取到的 img 有 gif 的信息,我们需要过滤掉

b、接下来是获取图片的 url

c、截取后缀,得到文件名,并保存

这样下来,就已经可以快速保存你所需要的表情包了,论斗图,谁比得过你

全部代码如下:

最终结果:

斗图.png

区区20几行代码,就可以造就一个斗图西方求败的你,赶快来行动吧!

当然,还可以更高级一点,就是利用多线程,异步进行爬取、下载,几秒钟就可以下载到上千张的表情包!相关代码,我也放到了 github ,需要的朋友自行去look look!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181108G0FIQI00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券