专栏首页程序猿声10分钟教你用Python爬取微博评论

10分钟教你用Python爬取微博评论

01 前言

微博,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在微博已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离婚,瞬间微博就爆炸。主要是因为微博不同于其他的社交平台,不需要对方关注你或是成为好友,就可以看到所有你想看到的信息和动态。所以,微博信息量巨大,也为我们爬数据提供了基础!

数据爬取

是的,今天,我们就来爬一下微博的评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何爬数据。

Tip:准备工作

首先,我们需要找到一个待爬取的微博,微博主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。

接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。微博页面如下图所示:

我们的工作是对评论进行爬取,点击“下一页”,可见评论页数高达28514页,看来大家对这个话题的关注度真的很高诶~~我们可以看到评论的链接为:

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=1

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=2

https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=3

网址最后的数字代表了页数,这也就为我们的评论爬取提供了基础!

Tip:爬取算法

算法介绍:Requests算法

1. Request 对象用于从访客那里获取信息。

2.pattern:属性规定用于验证 <input> 元素的值的正则表达式

爬取算法:

运行上述算法后,将得到:

输出到txt文件的内容是:

这样的数据还不太美观直接,我们再对上面的数据进行整理:

运行上述算法后,可得结果为:

这样我们就大功告成啦!

总结

这次我们只介绍了爬取新浪微博移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着爬取网页端或者手机端的数据哦~我们下期再见!

参考网址:

https://blog.csdn.net/weixin_42555080/article/details/88363040


本文分享自微信公众号 - 程序猿声(ProgramDream)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 代码 | 自适应大邻域搜索系列之(6) - 判断接受准则SimulatedAnnealing的代码解析

    前面三篇文章对大家来说应该很简单吧?不过轻松了这么久,今天再来看点刺激的。关于判断接受准则的代码。其实,判断接受准则有很多种,效果也因代码而异。今天介绍的是模拟...

    短短的路走走停停
  • Python AI 教学 | 主成分分析(PCA)原理及其应用

    假如你是一家淘宝店店主,你所负责运营的淘宝店2018年全年的流量及交易情况可以看成是一组记录的集合,其中每一天的数据是一条记录,(日期,浏览量,访客数,下单数,...

    短短的路走走停停
  • Python 自动整理 Excel 表格

    相信有不少朋友日常工作会用到 Excel 处理各式表格文件,更有甚者可能要花大把时间来做繁琐耗时的表格整理工作。最近有朋友问可否编程来减轻表格整理工作量,今儿我...

    短短的路走走停停
  • 如何爬取微博评论

    微博,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在微博已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离...

    用户1621951
  • 红包营销抢眼台网联动给力,微博鸡年大发得靠这三招

    春节互联网行业最受关注的莫过于两马战,即腾讯与阿里的红包大战。一到大年除夕,微信、QQ和支付宝就纷纷公布了除夕红包数据,可见春节已成为互联网巨头的必争之地。 大...

    罗超频道
  • 发财报后股价暴涨25%,微博正在越来越像YouTube

    5月16日晚间,微博在开盘前发布了第一季度财报,这是微博第一次将财报放到了开盘前发布,有人说是因为有晚起习惯的微博CEO王高飞害怕分析师电话会迟到才作出此举。然...

    罗超频道
  • 微博九岁为何没有衰老迹象?诀窍在于这两个字

    我的第一条微博发布于2009年11月18日,算是微博早期用户,跟微博一起成长了九年。

    罗超频道
  • 太阳底下无隐私:那些年我们做的微博数据挖掘

    新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年代。主页君当时就读于北京邮电大学,在实验室老师的指导下,从4G研发转战数据挖掘。从此我们项目...

    华章科技
  • "我们做的微博数据挖掘"

    作者:数控小V http://www.36dsj.com/archives/48650 新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年...

    机器学习AI算法工程
  • Python黑科技:利用Python实现微博监控小姐姐动态

    ? 0x00 前言: ? 前几个星期在写一个微博监控系统 可谓是一波三折啊 获取到微博后因为一些字符编码问题 导致心态爆炸开发中断 但是就在昨天发现了另外一个...

    小小科

扫码关注云+社区

领取腾讯云代金券