前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【开放源代码】集齐转评赞!微博点赞详细信息抓取

【开放源代码】集齐转评赞!微博点赞详细信息抓取

作者头像
月小水长
发布2021-11-16 13:06:12
1.5K0
发布2021-11-16 13:06:12
举报
文章被收录于专栏:月小水长月小水长

微博的转评赞都是构成微博社交关系网络的重要组成部分,其中转发和评论都在之前的推送中发布过。

2021 微博最新转发爬虫发布

2021 新版微博评论及其子评论爬虫发布

今天就来补齐赞的信息,并开放源代码,以李医生的最后一条微博为例子。

其URL地址为:

代码语言:javascript
复制
https://m.weibo.cn/detail/4467107636950632#attitude

抓取保存的 csv 格式如下:

其中 lid 为微博赞的 id,user_verfied_type 为给该微博点赞的用户的认证类型,-1 就是没用认证,普通用户。其他认证类型的对应关系如下:

代码语言:javascript
复制
    verified_dict = {
        -1: '普通用户',
        0: '名人',
        1: '政府',
        2: '',
        3: '媒体',
        220: ''
    }

遗憾的是,测试发现,一条微博暂时只能抓到的赞上限在 3000,按照当前的时间线往前回溯的。

本次抓取是针对 m.weibo.cn 的,其接口是

代码语言:javascript
复制
https://m.weibo.cn/api/attitudes/show

打开

代码语言:javascript
复制
https://m.weibo.cn/detail/4467107636950632#attitude

就能看到,并获取它的登录后的 cookie

初始化时指定id的微博 wid,起始抓取页码 page, cookie 等信息

代码语言:javascript
复制
    def __init__(self, wid, page=1, cookie=None, proxies=None):
        self.wid = wid
        self.page = page
        if cookie:
            self.cookie = cookie
        self.proxies = proxies
        self.initConfig()

        self.got_likes = []
        self.got_likes_num = 0
        self.written_likes_num = 0

        if not os.path.exists(self.like_folder):
            os.mkdir(self.like_folder)
        self.result_file = os.path.join(self.like_folder, f'{self.wid}.csv')

然后这样就能 run 起来了

代码语言:javascript
复制
if __name__ == '__main__':
    WeiboLikeSpider(wid='4467107636950632', cookie='你的 cookie').run()

主要可供修改的配置信息如下:

代码语言:javascript
复制
    # 每个 request 休眠 8 s
    slp_sec_per_req = 8
    # 每个 request 连接超时 8 s
    timeout = 8
    # 每翻 5 页保存一次
    save_per_n_page = 5
    # 结果 csv 文件所在的文件夹
    like_folder = 'like'
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-11-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 微博的转评赞都是构成微博社交关系网络的重要组成部分,其中转发和评论都在之前的推送中发布过。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档