前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【B 站视频教程】抓取用户微博和批量抓取评论

【B 站视频教程】抓取用户微博和批量抓取评论

作者头像
月小水长
发布2021-10-26 13:39:18
7340
发布2021-10-26 13:39:18
举报
文章被收录于专栏:月小水长月小水长

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。

如何抓取用户的所有微博,该部分代码地址在: 一个爬取用户所有微博的爬虫,还能断网续爬那种(点击直达),下面的视频详情演示了这个过程

如何抓取一条甚至多条微博的评论呢?代码地址在:2021 新版微博评论及其子评论爬虫发布(点击直达),具体操作可参考下面的视频

批量抓取微博评论,需要配置的一个文件是 mac_comment_config.json,其格式如下:

代码语言:javascript
复制
{
  "cookie": "换成你的 cookie",
  "comments": [
    {
      "mid": "KCXTUah9W",
      "uid": "2656274875",
      "limit": 100000,
      "decs": "吴京说神州十三号太美了"
    },
    {
      "mid": "KCYA7jubh",
      "uid": "2803301701",
      "limit": 100000,
      "decs": "吴京说神州十三号太美了"
    }
  ]
}

以上的配置可以抓取两条微博的评论,有个问题是,如果有很多很多个微博需要爬评论,难道需要一个个输入 mid 和 uid 吗?考虑到这个问题,我特意写了个脚本,比如我们爬完话题爬虫: 2021 新版微博话题爬虫发布 后,需要获取该话题下所有微博的评论,我们可以使用如下的 py 脚本代码自动构建视频中抓取评论所需要的 json 配置文件

代码语言:javascript
复制
# -*- coding: utf-8 -*-
# author:           inspurer(月小水长)
# create_time:      2021/10/17 10:31
# 运行环境           Python3.6+
# github            https://github.com/inspurer
# 微信公众号         月小水长

import json

import pandas as pd

limit = 10000

config_path = 'mac_comment_config.json'

data_path = './topic/小米.csv'


def drop_duplicate(path, col_index=0):
    df = pd.read_csv(path)
    first_column = df.columns.tolist()[col_index]
    # 去除重复行数据
    df.drop_duplicates(keep='first', inplace=True, subset=[first_column])
    # 可能还剩下重复 header
    df = df[-df[first_column].isin([first_column])]
    df.to_csv(path, encoding='utf-8-sig', index=False)


drop_duplicate(data_path)

with open(config_path, 'r', encoding='utf-8-sig') as f:
    config_json = json.loads(f.read())

df = pd.read_csv(data_path)

# 清楚原有的 comments 配置,如不需要可注释
config_json['comments'].clear()

for index, row in df.iterrows():
    print(f'{index + 1}/{df.shape[0]}')
    weibo_link = row['weibo_link']
    if '?' in weibo_link:
        weibo_link = weibo_link[:weibo_link.index('?')]
    uid = weibo_link[weibo_link.index('com') + 4:weibo_link.rindex('/')]
    mid = weibo_link[weibo_link.rindex('/') + 1:]
    config_json['comments'].append({
        'mid': mid,
        'uid': uid,
        'limit': limit,
        'desc': row['user_name']
    })

with open(config_path, 'w', encoding='utf-8-sig') as f:
    f.write(json.dumps(config_json, indent=2, ensure_ascii=False))

构建一次即可,如果抓取过程出错,可以把已经抓取过评论的的微博从 json 配置文件中删除,下次就可以从当前微博继续抓取了。

点击 阅读原文 可以直达视频地址~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档