批量表情包下载

文章来源：企鹅号 - 黑色缄默

导

语

可能是出于对假期的基本尊重，这几天看到什么算法架构之类的就脑袋痛，可生活还是要继续的嘛，刚好图荒，于是随便写了个表情包批量下载的爬虫脚本，没什么技术含量，纯娱乐性质。

需要的话回复“表情包”获取相关文件

开

发

工

具

Python版本：3.6.4

相关模块：

requests模块；

fake_useragent模块；

以及一些Python自带的模块。

爬

取

结

果

（截止写文时脚本未爬取完仍在运行，）

视

频

过于简单不放了吧--··

原

理

简

介

对于这种爬虫类脚本我一般都是轻描淡写地说下主要思路然后让大家自己看源码的，一方面是爬虫代码的存活时间不长，换句话说就是你花了很多时间写的文章过几个月可能就“没用”了，另一方面嘛，由于我懒o(╯╰)o。

1：设置爬取的页数，一页是10组，所以50页是500组，可以自定义设置范围。

2：设置超时防止IP被封

3：大致介绍下一般网站反爬措施

（1）验证码

（2）Header检验

即检查HTTP请求的Headers信息，一般包括：

User-Agent(UA)；Referer；Cookies等。

User-Agent：

当前用户使用的客户端种类和版本；

Referer：

请求是从哪里来的；

Cookie：

有时候网站会检测Cookie中session_id的使用次数，显然当次数过多时，当前用户会被认为是爬虫。

（3）IP请求速度检验

当某个IP的请求速度过快时，就会触发该网站的反爬机制。

（4）动态加载

ajax动态加载网页内容。

最

后

发表于: 2019-01-202019-01-20 15:09:24
原文链接：https://kuaibao.qq.com/s/20190120A0JACX00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

批量表情包下载

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐