Python微博移动端爬虫实例

專 欄

作者:麦艳涛,挖掘机小王子,数据分析爱好者。

本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!

环境介绍

Python3/Windows-10-64位/微博移动端

网页分析

以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图:

在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:

打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。如下图:

真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3

将网址在火狐里面打开如下图:

上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6。。。。

另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。

原文发布于微信公众号 - Python中文社区(python-china)

原文发表时间:2017-12-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏施炯的IoT开发专栏

Application Architecture Guide 2.0 - CH 19 - Mobile Applications(1)

Chapter 19: Mobile Applications Objectives • Define a mobile application. • Unde...

20870
来自专栏京东技术

京东JMAC,完美解决移动自动化测试的常见问题

提到移动端自动化测试就不得不提及目前几大开源的移动端自动化测试工具/框架,主流工具有Appium、Athrun、Robotium、UiAutomator、Mon...

14520
来自专栏美团技术团队

美团点评境外度假团队前端项目开发实践总结

前言 随着前端项目数量和规模越来越大,参与的人员也越来越多,如何在前端项目开发过程中保证优质的开发者体验和项目的可维护性,同时确保极致的用户体验将会是一个非常大...

47080
来自专栏Java架构师历程

如何进行微服务的API测试

作为构建复杂系统的架构,微服务在开发社区中获得了巨大的吸引力。虽然人们开始明白它并不是解决所有应用程序架构问题的灵丹妙药,但是分享与依赖关系和扩展相关的挑战的应...

1.1K20
来自专栏小白课代表

百度有广告?电影没处下?网页不让复制?贴吧页面太丑?今天课代表全方位强化你的浏览器。

在百度搜索了某个问题却发现第一页都是广告?好不容易找到了一篇文档却发现不让复制?在豆瓣看到一个评分很高的电影,想看却找不到资源?看到一张图片还要打开才能看高清大...

18620
来自专栏地方网络工作室的专栏

客制化 GH60 XD60 像 Poker 一样的 60% 机械键盘 (1)设计键盘

客制化 GH60 XD60 像 Poker 一样的 60% 机械键盘 (1)设计键盘 首先呢,我喜欢樱桃茶轴的键盘。但是由于对方向键的依赖,一直无法接受 60%...

41580
来自专栏醉程序

自己动手写一个PHP组件

20610
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙|Robotium自动化测试介绍

Robotium自动化测试介绍 活动时间:2016年9月29日 QQ群视频交流 活动介绍:TMQ在线沙龙第九期分享 本次分享的主题是Robotium自动化测试介...

25350
来自专栏微信小程序开发

小程序中wx.xx is not a function的报错

30840
来自专栏about云

图片服务架构演进及云存储的优势

问题导读 1.构建独立的图片服务器有什么优势? 2.使用云存储服务有哪些优势? 3.图片如何防盗链? 现在几乎任何一个网站、Web App以及移动...

1.4K50

扫码关注云+社区

领取腾讯云代金券