Python爬虫之微博评论爬取

專 欄

罗罗攀,Python中文社区专栏作者

专栏地址:

http://www.jianshu.com/u/9104ebf5e177

提交Cookie信息模拟微博登录

需要爬取登录之后的信息,大家都是望而止步,不要担心,今天呢,给大家提供一个超级简单的方法,就是提交Cookie信息登录微博,首先,我们找到某明星的微博网址:http://m.weibo.cn/u/1732927460 这里是登录的移动端,你会发现,你点击网址会自动跳转到登录微博的界面(没有跳转的注销掉自己的账号),如下图所示:

然后登录自己的账号密码,这时记得打开Fiddler进行抓包,如图所示,提取Cookie做为请求某明星微博网址的请求头即可。

异步加载数据如何爬取

我在网上看过移动端的微博数据很好爬,没有异步加载,可是不知道为什么,我的评论数据就是异步加载的,其实异步加载不可怕,找到相应js包即可,如下图为某明星的一条微博和评论的js包。我们只需请求这个js数据,然后利用json库即可提取我们所需的评论数据。

代码

爬取的数据导入数据库后又导出为csv格式进行分析

词云制作及分析

可以说支持的评论更多一些:例如爱你,喜欢,坚强等等;不过也有不少的恶意评论:黑,恶心,讨厌等。

总结

1、Cookie提交是一个简单不错的选择,但Cookie信息隐藏着隐私,大家千万别暴露在外面,以防外人所利用。 2、异步加载不可怕,找包有技巧,有id,vid等字段的嫌疑最大,多练习就行。

原文发布于微信公众号 - Python中文社区(python-china)

原文发表时间:2017-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏魏艾斯博客www.vpsss.net

宝塔面板网站502 Bad Gateway无法正常打开的解决过程

网友遇到宝塔面板 502 Bad Gateway 的情况,魏艾斯博客也是第一次遇到这个问题,经过一番设置后解决了,因为网络上此类文章不少,也都是各种折腾后的结果...

4.1K00
来自专栏编程

八个技巧,提高Web前端性能

1. 优化 CSS 性能 CSS,即级联样式表,能从 HTML 描述的内容生成专业而又整洁的文件。很多 CSS 需要通过 HTTP 请求来引入(除非使用内联 C...

241100
来自专栏知晓程序

用过的小程序太多了,该怎么整理?| 小程序问答 #53

时间一长,这个列表就会变得很长,而且还不能直接调整顺序。这时候,想要快速找到以往用过的小程序,就变得很麻烦。

14250
来自专栏偏前端工程师的驿站

JS魔法堂:浏览器模式和文档模式怎么玩?

一、前言                                         从IE8开始引入了文档兼容模式的概念,作为开发人员的我们可以在开发人员...

24880
来自专栏源码之家

终于让采集侠自动采集了

用织梦采集侠一段时间了,觉得这个插件真的不错,尤其是新版本,可以结合DEDE自动的采集规则来进行采集。一下采集功能就非常强大了。

2.8K20
来自专栏北京马哥教育

【图文详解】python爬虫实战——5分钟做个图片自动下载器

我想要(下)的,我现在就要 python爬虫实战——图片自动下载器 之前介绍了那么多基本知识【Python爬虫】入门知识(没看的赶紧去看)大家也估计手痒了。想要...

39380
来自专栏Linyb极客之路

详解PV、UV、VV、IP及其关系与计算

PV即Page View,网站浏览量,指页面浏览的次数,用以衡量网站用户访问的网页数量。用户每次打开一个页面便记录1次PV,多次打开同一页面则浏览量累计。一...

74320
来自专栏互联网数据官iCDO

Google代码管理工具101 部分5-表单

主编前言: 很多朋友都听说过Tag Management(监测代码管理),但其强大的功能和实现方式,了解的朋友不多。本系列以Google Tag Manager...

40450
来自专栏Jerry的SAP技术分享

如何用Chrome自带的截屏功能截取超过一个屏幕的网页

前端开发人员经常需要将当前的网页截图发给产品经理讨论。如果网页很长,一个屏幕显示不下,那么操作系统自带的截图功能就没有办法截取整个屏幕了。

1K10
来自专栏佳爷的后花媛

使用vue做一个本地记事本(一)

这个参考的是一个记事本的demo,为了面试学的vue,看了两天,觉得想要更快的上手最好还是做一个demo。这是我刚开始学的时候做的一些小demo,跟着文档来的。...

24220

扫码关注云+社区

领取腾讯云代金券