前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬取历史热搜,武汉到底上了几次热搜?

爬取历史热搜,武汉到底上了几次热搜?

作者头像
用户6825444
发布2020-02-24 18:05:57
1.8K3
发布2020-02-24 18:05:57
举报
文章被收录于专栏:木下学Python木下学Python

前言

这段时间大家都被病毒搞得很心烦,小编也不例外,大家注意防护好,小心一些。

希望疫情早点结束,武汉加油,中国加油!

这次小编带大家从技术的角度看一看,自从疫情爆发以来,探索一下武汉到底上了微博多少次热搜。

数据获取

小编选取了 “微博热搜神器” 作为爬取目标:

向下翻页,他会让我们用微信小程序打开一下,要不然不让我们继续查看,我们用小程序扫码打开,绑定手机号后,会赠送积分,用积分换取查看权限即可:

我们得到权限后,向下滑,发现是 ajax 加载的,我们的目标是爬取 2020 年 1 月至 2 月中旬以来武汉的历史热搜数据,发现有 20 页数据:

我们查看请求方式为 post 请求:

那在知道了我们的请求方式后,来查看一下提交的表单:

我们发现从上面的表单中有 5 个参数,其中 accessToken,t 看起来像加密参数,其他参数不知道,那我们翻一页对比一下这些参数的变化:

对比后,除了 from 参数是变化的,其他的参数都是固定的,那就好办了,我们只需要构造页数的代码即可爬取,爬取部分代码如下:

这样我们就得到了目标数据了:

热搜走势

得到数据后,我们对历史热搜次数做一个日历图:

从日历图中看出,武汉 1月 20 号以前上热搜次数较少,大概从 20 号左右以后次数突然变多了,走势图如下:

从走势图看出 1 月 20 号以后,武汉上热搜次数突然激增,这是由于疫情突然爆发了,全国的焦点都时刻关注着武汉,导致微博热搜,武汉上的次数变多。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 木下学Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CloudBase
云开发(Tencent CloudBase,TCB)是腾讯云提供的云原生一体化开发环境和工具平台,为200万+企业和开发者提供高可用、自动弹性扩缩的后端云服务,可用于云端一体化开发多种端应用(小程序、公众号、Web 应用等),避免了应用开发过程中繁琐的服务器搭建及运维,开发者可以专注于业务逻辑的实现,开发门槛更低,效率更高。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档