前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何爬取微博评论

如何爬取微博评论

作者头像
用户1621951
发布2019-07-10 11:47:50
2K0
发布2019-07-10 11:47:50
举报
文章被收录于专栏:数据魔术师

01 前言

微博,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在微博已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离婚,瞬间微博就爆炸。主要是因为微博不同于其他的社交平台,不需要对方关注你或是成为好友,就可以看到所有你想看到的信息和动态。所以,微博信息量巨大,也为我们爬数据提供了基础!

数据爬取

是的,今天,我们就来爬一下微博的评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何爬数据。

Tip:准备工作

首先,我们需要找到一个待爬取的微博,微博主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。

接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。微博页面如下图所示:

我们的工作是对评论进行爬取,点击“下一页”,可见评论页数高达28514页,看来大家对这个话题的关注度真的很高诶~~我们可以看到评论的链接为:

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=1

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=2

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=3

网址最后的数字代表了页数,这也就为我们的评论爬取提供了基础!

Tip:爬取算法

算法介绍:Requests算法

1. Request 对象用于从访客那里获取信息。

2.pattern:属性规定用于验证 <input> 元素的值的正则表达式

爬取算法:

运行上述算法后,将得到:

输出到txt文件的内容是:

这样的数据还不太美观直接,我们再对上面的数据进行整理:

运行上述算法后,可得结果为:

这样我们就大功告成啦!

总结

这次我们只介绍了爬取新浪微博移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着爬取网页端或者手机端的数据哦~我们下期再见!

参考网址:

https://blog.csdn.net/weixin_42555080/article/details/88363040


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据魔术师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档