登陆新浪微博&批量下载收藏内容[Python脚本实现]

小小科

发布于 2018-05-04 17:28:45

1.5K0

发布于 2018-05-04 17:28:45

文章被收录于专栏：北京马哥教育

作者：wklken 来源： http://blog.csdn.net/wklken/article/details/7884529

今天开新浪微博，才发现收藏已然有2000+了，足足104页，貌似需要整理下了，可是一页页整理，难以想象

所以想下载，然后进行提取处理，转为文档。

我们关注的：

1.微博正文+评论内容

2.图片

3.视频链接

用Python实现

思路：

1.脚本模拟登陆新浪微博，保存cookie

2.有了cookie信息后，访问收藏页面url

3.从第一页开始，逐步访问，直到最后，脚本中进行了两步处理

A.直接下载网页（下载到本地，当然，要看的时候需要联网，因为js，图片神马的，都还在）

B.解析出微博需要的内容，目前只是存下来，还没有处理

后续会用lxml通过xpath读取，转换成文档，当然，图片和视频链接也会一同处理，目前未想好处理成什么格式。(困了，明后天接着写)

模拟登陆微博采用是http://www.douban.com/note/201767245/

里面很详细，直接拉来用了

步骤：

1.进入自己的微博，右侧，收藏，进入收藏页面

http://weibo.com/fav?leftnav=1&wvr=3.6&page=1

拿前缀

2.修改脚本填写

用户名

密码

前缀http://weibo.com/fav?leftnav=1&wvr=3.6&page=

3.运行脚本

python weibo_collect.py

结果：

其中，带序号的，只能连网时点击打开有效

tmpcontent是包含所有微博内容信息，但目前还没有处理(还没想好提取成什么格式，容后再说)

附上脚本

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-05-11，如有侵权请联系 cloudcommunity@tencent.com 删除

python

本文分享自马哥Linux运维微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

python

登录后参与评论

0 条评论

热度