专栏首页数据魔术师如何爬取微博评论

如何爬取微博评论

01 前言

微博,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在微博已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离婚,瞬间微博就爆炸。主要是因为微博不同于其他的社交平台,不需要对方关注你或是成为好友,就可以看到所有你想看到的信息和动态。所以,微博信息量巨大,也为我们爬数据提供了基础!

数据爬取

是的,今天,我们就来爬一下微博的评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何爬数据。

Tip:准备工作

首先,我们需要找到一个待爬取的微博,微博主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。

接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。微博页面如下图所示:

我们的工作是对评论进行爬取,点击“下一页”,可见评论页数高达28514页,看来大家对这个话题的关注度真的很高诶~~我们可以看到评论的链接为:

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=1

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=2

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=3

网址最后的数字代表了页数,这也就为我们的评论爬取提供了基础!

Tip:爬取算法

算法介绍:Requests算法

1. Request 对象用于从访客那里获取信息。

2.pattern:属性规定用于验证 <input> 元素的值的正则表达式

爬取算法:

运行上述算法后,将得到:

输出到txt文件的内容是:

这样的数据还不太美观直接,我们再对上面的数据进行整理:

运行上述算法后,可得结果为:

这样我们就大功告成啦!

总结

这次我们只介绍了爬取新浪微博移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着爬取网页端或者手机端的数据哦~我们下期再见!

参考网址:

https://blog.csdn.net/weixin_42555080/article/details/88363040


本文分享自微信公众号 - 数据魔术师(data-magician),作者:老薛带你学python

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 代码 | 自适应大邻域搜索系列之(6) - 判断接受准则SimulatedAnnealing的代码解析

    其实,判断接受准则有很多种,效果也因代码而异。今天介绍的是模拟退火的判断接受准则。

    用户1621951
  • 干货|十分钟快速掌握CPLEX求解VRPTW数学模型(附JAVA代码及CPLEX安装流程)

    号外!号外!常年用 TSP 举例的某干货分享板块终于 倒闭 改革了!小编终于被boss揪去关·禁·闭、学·习·进·阶、突·破·自·我了! 本着 独学学 ...

    用户1621951
  • 自适应大邻域 | 用ALNS框架求解一个TSP问题 - 代码详解

    我们总算是把整个ALNS的代码框架给大家说明白了。不知道大家对整个框架了解了没有。

    用户1621951
  • 10分钟教你用Python爬取微博评论

    微博,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在微博已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离...

    短短的路走走停停
  • 红包营销抢眼台网联动给力,微博鸡年大发得靠这三招

    春节互联网行业最受关注的莫过于两马战,即腾讯与阿里的红包大战。一到大年除夕,微信、QQ和支付宝就纷纷公布了除夕红包数据,可见春节已成为互联网巨头的必争之地。 大...

    罗超频道
  • 发财报后股价暴涨25%,微博正在越来越像YouTube

    5月16日晚间,微博在开盘前发布了第一季度财报,这是微博第一次将财报放到了开盘前发布,有人说是因为有晚起习惯的微博CEO王高飞害怕分析师电话会迟到才作出此举。然...

    罗超频道
  • 微博九岁为何没有衰老迹象?诀窍在于这两个字

    我的第一条微博发布于2009年11月18日,算是微博早期用户,跟微博一起成长了九年。

    罗超频道
  • 太阳底下无隐私:那些年我们做的微博数据挖掘

    新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年代。主页君当时就读于北京邮电大学,在实验室老师的指导下,从4G研发转战数据挖掘。从此我们项目...

    华章科技
  • "我们做的微博数据挖掘"

    作者:数控小V http://www.36dsj.com/archives/48650 新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年...

    机器学习AI算法工程
  • Python黑科技:利用Python实现微博监控小姐姐动态

    ? 0x00 前言: ? 前几个星期在写一个微博监控系统 可谓是一波三折啊 获取到微博后因为一些字符编码问题 导致心态爆炸开发中断 但是就在昨天发现了另外一个...

    小小科

扫码关注云+社区

领取腾讯云代金券