微博爬虫

全文简介

本文是用Python爬取微博移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。所以,不要难为别人,到最后其实是在难为你自己。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!

环境介绍

Python3

Windows-10-64位

微博移动端

网页分析

以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图:

在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:

打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。如下图:

真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3

将网址在火狐里面打开如下图:

上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6。。。。

另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。

Python代码

代码写的丑,凑合着看吧。

本文来自企鹅号 - Python热爱着媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python微博移动端爬虫实例

    ❈ 作者:麦艳涛,挖掘机小王子,数据分析爱好者。 ❈ 本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果...

    企鹅号小编
  • 从微信、钉钉等APP,看六种常见的loading 加载设计

    当页面的框架固定时,只需要加载框架内数据时,采用这种刷新样式,即先加载框架,再加载框架内的数据。为了反之框架内的内容为空,会用占位符或者预设图片来填充。 上面简...

    企鹅号小编
  • 深度学习的教学和课程,与传统 CS 的教学和课程有什么区别?

    深度学习的课程和传统计算机课程有很大的不同,也可以说 “独树一帜”,其独特性主要来自于: 1. 前置课程多 2. 缺乏完整的理论体系 3. 繁多的调参技巧 4....

    企鹅号小编
  • Python微博移动端爬虫实例

    專 欄 ❈ 作者:麦艳涛,挖掘机小王子,数据分析爱好者。 ❈ 本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取...

    Python中文社区
  • Python微博移动端爬虫实例

    ❈ 作者:麦艳涛,挖掘机小王子,数据分析爱好者。 ❈ 本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果...

    企鹅号小编
  • 正则表达式–总结篇

    1、首先要了解正则表达式的组成部分 2、主要明白特殊字符以及元字符(常用的元字符就那么几个,记住即可) 3、掌握正则表达式的运算优先级(常见的操作符从高到底如下...

    苦咖啡
  • Redis学习三(进阶功能).

    redis 支持对 list,set 和 zset 元素的排序,排序的时间复杂度是 O(N+M*log(M))。(N 是集合大小,M 为返回元素的数量)

    JMCui
  • SpringBoot的事务管理你会了么?

    Springboot内部提供的事务管理器是根据autoconfigure来进行决定的。

    java架构师
  • 为何Keras中的CNN是有问题的,如何修复它们?

    上个星期我做了一些实验,用了在 CIFAR10 数据集上训练的 VGG16。我需要从零开始训练模型,所以没有使用在 ImageNet 上预训练的版本。

    磐创AI
  • (JVM)Java虚拟机:图文解析类加载的5个过程

    将描述类的数据 从Class文件加载到内存 & 对数据进行校验、转换解析 和 初始化,最终形成可被虚拟机直接使用的Java使用类型

    Carson.Ho

扫码关注云+社区

领取腾讯云代金券