学习
实践
活动
专区
工具
TVP
写文章
专栏首页iOS开发干货分享Python爬虫一键爬取海量表情包,分分钟碾压斗图狂魔!【附源码】

Python爬虫一键爬取海量表情包,分分钟碾压斗图狂魔!【附源码】

点击上方蓝字关注 学Python不迷路

一、前言

有时候我不是很理解聊天斗图的现象,年轻人也就罢了,但我这种四十多岁的圈子里,居然还盛行聊天斗图这种风气…一把年纪了还当斗图狂魔…

他们的图怎么就这么多?结果一问,每个人手机里都专门存了几十张表情包,有的人甚至存了上百张…原来这就是他们“嚣张”斗图的原因?!

我想了想,斗图不就是比谁的表情包多吗?那谁能比我们程序员表情包多?爬虫一爬就是成千上万张!

今天就教大家一招用Python爬虫一键爬取海量表情包,分分钟碾压那些斗图狂魔!并附上源码。

二、思路解析

1.创建请求头,也被称为伪装浏览器

可能有些同学会问了,什么是请求头啊。请求头其实就是一个用户代理,在请求头中是包含了当前用户的操作系统版本信息以及当前用户访问网站所使用的浏览器版本信息。

那么为什么要创建请求头呢,因为在网站访问的过程中,有大部分网站会对当前请求做验证,来判断当前的请求是否合法(不是使用浏览器来获取网站数据的话会被认为非法请求)。如果不添加请求头的话,可能会出现当前网站没有访问权限。

创建方法:

1.打开浏览器

2.按住f12

3.选中NetWork选项卡

4.点击筛选出来的链接(链接选择随意)

5.找到user-agent选项并复制

'user-agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'

2.使用requests 网络请求库完成网站数据请求

当我们创建完成请求头之后就需要访问网站拿到网站的页面数据了,那么如何获取网站数据呢,这时候就需要使用requests来帮助我们获取了。

在使用requests之前,需要先下载安装。

下载安装命令:pip install requests -i https://pypi.douban.com/simple

安装完成之后我们就可以使用requests了,使用方法:

requests.get(‘https://fabiaoqing.com/biaoqing/lists/page/1.html’, headers=headers).text

在获取网页数据的时候,需要调用http协议中的get方法来获取页面数据,一般情况下会返回html页面源代码

需要传入的参数:网站的域名以及请求头

如果想获取文本数据,那么就调用requests中内置的text方法返回文本数据,如果想要获取二进制数据则使用内置的content方法。

3.获取数据后使用bs4对页面数据进行提取

因为一个页面包含的数据太多了,例如:搜索框、页面广告、ICP备案号等等。但是我们只是想要获取页面中的表情包图片,那该怎么办呢?这时候我们就需要用到一个非常好用的第三方包:bs4

使用方法:

(1)在浏览器中按住f12调出开发者工具,点击Elements,之后点击元素选择器(左边的小箭头),之后选中页面上的图片,左键点击。浏览器就会帮助我们定位图片所在html代码的位置

(2)看到被选中的标签后,查看当前图片的元素标签,当前标签是img,观察当前标签中的属性,有一个class属性,复制该属性的值

(3)调用方法:find_all(‘img’, class_=‘ui image lazy’),调用之后会返回图片标签的列表

(4)对列表进行循环,将img标签中的data-original属性的值提取出来

(5)提取完成之后将会获得当前页面所有的图片标签,我们对当前获取的链接进行二次请求并使用python内置的with open方法将图片数据下载到本地

至此,一个简单的微信表情包爬虫就制作完成。

三、源码

以下是代码的截图,代码源文件请在后台回复关键字“爬表情包”自助领取。

end

文章分享自微信公众号:
web前端小剧场

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

原始发表时间:2021-05-20
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • python爬虫教程:《利用Python爬取表情包》

    Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及相关电子版书籍,欢迎前来领取...

    python学习教程
  • 真香警告!多线程分类表情包爬取,一起斗图叭(*^▽^*)~~~

    有一个网站,叫做“斗图啦”,网址是:https://www.doutula.com/。这里面包含了许许多多的有意思的斗图图片,还蛮好玩的。有时候为了斗图要跑到这...

    Python研究者
  • 卧槽,又来一个Python神器!!

    今天给大家推荐一个优质的Python公众号「法纳斯特」,作者:小F。 学习编程是一个比较枯燥的过程,所以小F平常喜欢分享一些有趣、有料的Python原创项目实战...

    张俊红
  • 與情分析系统,包括爬虫、文本摘要、主题分类、情感倾向性识别以及可视化

    向AI转型的程序员都关注了这个号??? 机器学习AI算法工程   公众号:datayx 0. 引言 此项目包括與情分析系统,包括爬虫、数据清洗、文本摘要、主题分...

    机器学习AI算法工程
  • 斗图狂魔必备沙雕表情包,python多线程爬取斗图啦表情图片

    混迹网络,表情包必不可少,从表情包图片的出现,无疑是席卷网络聊天的态势,涌现了不少网络神图,同时也培养了不少斗图狂魔,今天的沙雕图片你收藏了么?

    二爷
  • 如何在一个月内学会Python爬取大规模数据

    慕白
  • 不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据

    Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的...

    机器学习AI算法工程
  • 不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据

    Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的...

    Python中文社区
  • 不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据

    Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编...

    昱良
  • 从小白到年薪10万+,优秀的数据分析能力如何速成?

    广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网...

    机器学习AI算法工程
  • 用python分析了 6000 款 App,竟有这么多佳软神器没用过!

    如果说 GitHub 是程序员的天堂,那么 酷安 则是手机 App 爱好者们(别称「搞机」爱好者)的天堂,相比于那些传统的手机应用下载市场,酷安有三点特别之处:

    一墨编程学习
  • 数据分析|用Python数据分析 6000 款 App,推荐使用24款App

    摘要: 如今移动互联网越来越发达,各式各样的 App 层出不穷,也就产生了优劣之分,相比于普通 App,我们肯定愿意去使用那些良心佳软,但去发现这些 App 并...

    龙哥
  • 用Python分析完6000 款 App,得出这些结论

    摘要: 如今移动互联网越来越发达,各式各样的 App 层出不穷,也就产生了优劣之分,相比于普通 App,我们肯定愿意去使用那些良心佳软,但去发现这些 App 并...

    Python中文社区
  • 乱炖数据之2700余篇“简书交友”专题文章数据的花式玩法

    简书上有个“简书交友”专题,经常会有人写些自己的情况、贴贴自己的照片然后投稿到这一专题,有介绍的比较详细的比如下图所示(侵删),较为规整和全面;

    古柳_DesertsX
  • 学习 Python 来做一些神奇好玩的事情吧

    相信看完 @X_AirDu 的回答我们已经对 Python 有了一个大概的了解。那接下来就让我们更深入的了解 Python 吧~

    SunnyGao
  • 八个commit让你学会爬取京东商品信息

    我发现现在不用标题党的套路还真不好吸引人,最近在做相关的事情,从而稍微总结出了一些文字。我一贯的想法吧,虽然才疏学浅,但是还是希望能帮助需要的人。博客园实在不适...

    一心一怿
  • 如何用Python从海量文本抽取主题?

    作者:王树义 量子位 已获授权编辑发布 你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间...

    量子位
  • 如何用Python从海量文本抽取主题?

    你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文使用Python对超过10...

    王树义

扫码关注腾讯云开发者

领取腾讯云代金券