Python批量下载表情包

导语

最近图慌,于是随便写了个表情包批量下载的脚本,没什么技术含量,纯娱乐性质。

让我们愉快地开始吧~

开发工具

Python版本:3.6.4

相关模块:

requests模块;

fake_useragent模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

原理简介

爬的站长之家的表情包,链接:

http://sc.chinaz.com/biaoqing/index.html

非常好爬,思路也很简单:

① 获得表情包所在地址;

② 根据表情包所在地址,获得表情所在地址;

③ 根据表情所在地址下载表情。

具体实现过程详见相关文件中的源代码。

或许很多人都发现了,爬虫相关的文章我都是轻描淡写地说下主要思路然后让大家自己看源码的,一方面是我懒得写,另一方面是爬虫代码的存活时间不长,换句话说就是你花了很多时间写的文章过几个月甚至过几天可能就“没用”了。

不过今天我打算随手总结一下普通的反爬虫机制有哪些内容:

(1)验证码

(2)Header检验

即检查HTTP请求的Headers信息,一般包括:

User-Agent(UA);Referer;Cookies等。

User-Agent:

当前用户使用的客户端种类和版本;

Referer:

请求是从哪里来的;

Cookie:

有时候网站会检测Cookie中session_id的使用次数,显然当次数过多时,当前用户会被认为是爬虫。

(3)IP请求速度检验

当某个IP的请求速度过快时,就会触发该网站的反爬机制。

(4)动态加载

ajax动态加载网页内容。

That's all.

运行截图

指定爬取的范围:

在cmd窗口运行"Spider.py"文件即可。

效果截图:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180802B1GDU500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券