开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >Python爬虫之微博好友圈代码代码分析词云

Python爬虫之微博好友圈代码代码分析词云

罗罗攀

发布于 2018-07-03 14:11:53

1.1K0

发布于 2018-07-03 14:11:53

举报

文章被收录于专栏：有趣的Python和你

数学建模已结束，刚开始的目标就是不熬夜，结果还是熬夜了（QAQ），缓了一天就来写简书了，感觉很久没爬虫了，今天就爬下移动端的微博好友圈信息。

代码

import requests
import json

headers = {
    'Cookie':'xxxxxxxx',
    'User_Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}

f = open('C:/Users/LP/Desktop/weibo.txt','a+',encoding='utf-8')

def get_info(url,page):
    html = requests.get(url,headers=headers)
    json_data = json.loads(html.text)
    card_groups = json_data[0]['card_group']
    for card_group in card_groups:
        f.write(card_group['mblog']['text'].split(' ')[0]+'\n')

    next_cursor = json_data[0]['next_cursor']

    if page<50:
        next_url = 'https://m.weibo.cn/index/friends?format=cards&next_cursor='+str(next_cursor)+'&page=1'
        page = page + 1
        get_info(next_url,page)
    else:
        pass
        f.close()

if __name__ == '__main__':
    url = 'https://m.weibo.cn/index/friends?format=cards'
    get_info(url,1)

代码分析

提交cookie模拟登陆微博
好友圈的信息也是异步加载，如图为第一页的url

看下返回的数据中，这个next_cursor很重要！！！！

往下翻页，如图，可以看出第二页的url中也有next_cursor，刚好是第一页返回的！！！！！

这样就可以构造多页url，爬取数据啦

词云

最后，jieba分词做了一个词云，除了二哈，感觉全是群主的，被刷屏了。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.04.26 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

代码
代码分析
词云

相关产品与服务

腾讯云代码分析

腾讯云代码分析（内部代号CodeDog）是集众多代码分析工具的云原生、分布式、高性能的代码综合分析跟踪管理平台，其主要功能是持续跟踪分析代码，观测项目代码质量，支撑团队传承代码文化。

产品介绍产品文档

精选特惠用云无忧