导
语
可能是出于对假期的基本尊重,这几天看到什么算法架构之类的就脑袋痛,可生活还是要继续的嘛,刚好图荒,于是随便写了个表情包批量下载的爬虫脚本,没什么技术含量,纯娱乐性质。
需要的话回复“表情包”获取相关文件
开
发
工
具
Python版本:3.6.4
相关模块:
requests模块;
fake_useragent模块;
以及一些Python自带的模块。
爬
取
结
果
(截止写文时脚本未爬取完仍在运行,)
视
频
过于简单不放了吧--··
原
理
简
介
对于这种爬虫类脚本我一般都是轻描淡写地说下主要思路然后让大家自己看源码的,一方面是爬虫代码的存活时间不长,换句话说就是你花了很多时间写的文章过几个月可能就“没用”了,另一方面嘛,由于我懒o(╯╰)o。
1:设置爬取的页数,一页是10组,所以50页是500组,可以自定义设置范围。
2:设置超时防止IP被封
3:大致介绍下一般网站反爬措施
(1)验证码
(2)Header检验
即检查HTTP请求的Headers信息,一般包括:
User-Agent(UA);Referer;Cookies等。
User-Agent:
当前用户使用的客户端种类和版本;
Referer:
请求是从哪里来的;
Cookie:
有时候网站会检测Cookie中session_id的使用次数,显然当次数过多时,当前用户会被认为是爬虫。
(3)IP请求速度检验
当某个IP的请求速度过快时,就会触发该网站的反爬机制。
(4)动态加载
ajax动态加载网页内容。
最
后
领取专属 10元无门槛券
私享最新 技术干货