Python微博移动端爬虫实例

作者:麦艳涛,挖掘机小王子,数据分析爱好者。

本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!

环境介绍

Python3/Windows-10-64位/微博移动端

网页分析

以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图:

在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:

打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。如下图:

真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3

将网址在火狐里面打开如下图:

上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6。。。。

另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。

本文来自企鹅号 - 达内Python人工智能媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏iOSDevLog

应用程序内购买教程:入门

更新说明:Pietro Rea为Xcode 10,Swift 4.2和iOS 11/12更新了本教程。Ray Wenderlich写了原文。

31320
来自专栏编程

八个技巧,提高Web前端性能

1. 优化 CSS 性能 CSS,即级联样式表,能从 HTML 描述的内容生成专业而又整洁的文件。很多 CSS 需要通过 HTTP 请求来引入(除非使用内联 C...

237100
来自专栏地方网络工作室的专栏

客制化 GH60 XD60 像 Poker 一样的 60% 机械键盘 (1)设计键盘

客制化 GH60 XD60 像 Poker 一样的 60% 机械键盘 (1)设计键盘 首先呢,我喜欢樱桃茶轴的键盘。但是由于对方向键的依赖,一直无法接受 60%...

41480
来自专栏Java架构师历程

如何进行微服务的API测试

作为构建复杂系统的架构,微服务在开发社区中获得了巨大的吸引力。虽然人们开始明白它并不是解决所有应用程序架构问题的灵丹妙药,但是分享与依赖关系和扩展相关的挑战的应...

1.1K20
来自专栏醉程序

自己动手写一个PHP组件

20410
来自专栏腾讯Bugly的专栏

解耦---Hybrid H5跨平台性思考

跨平台,是H5最重要的能力之一。而 Hybrid H5 因强依赖于具体 app,往往不具有跨平台性。这时,将强依赖关系解耦,即可恢复 H5 的跨平台能力。近期本...

45740
来自专栏小白课代表

格式工厂 | 文件格式转换神器!

http://www.pcfreetime.com/formatfactory/CN/index.html

27830
来自专栏微信小程序开发

小程序中wx.xx is not a function的报错

30740
来自专栏about云

图片服务架构演进及云存储的优势

问题导读 1.构建独立的图片服务器有什么优势? 2.使用云存储服务有哪些优势? 3.图片如何防盗链? 现在几乎任何一个网站、Web App以及移动...

1.4K50
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙|Robotium自动化测试介绍

Robotium自动化测试介绍 活动时间:2016年9月29日 QQ群视频交流 活动介绍:TMQ在线沙龙第九期分享 本次分享的主题是Robotium自动化测试介...

25350

扫码关注云+社区

领取腾讯云代金券