首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >【爬虫软件】微博采集工具,根据指定博主爬其主页发布的帖子数据

【爬虫软件】微博采集工具,根据指定博主爬其主页发布的帖子数据

作者头像
马哥python说
发布2025-11-13 18:42:07
发布2025-11-13 18:42:07
1340
举报

本软件工具仅限于学术交流使用,严格遵循相关法律法规,符合平台内容合法合规性,禁止用于任何商业用途!

一、背景分析

1.1 开发背景与功能介绍

我是@马哥python说,一枚10年+程序猿,现全职独立开发。

曾经和很多同学聊过,他们希望有一个工具,可以把微博指定用户的已发布帖子的数据采集下来,然后做数据分析使用。为了满足这类需求,我特意用python开发了这款工具:weibo_user_post_tool

软件运行界面:

软件运行界面
软件运行界面

▲ 软件运行截图

采集结果展示:

采集结果csv
采集结果csv

▲ 采集结果.csv

以上。

1.2 软件说明

几点重要说明,请详读了解:

  1. Windows系统、Mac系统均可运行
  2. 软件通过接口协议爬取,并非通过模拟浏览器等RPA类工具,稳定性较高!
  3. 软件运行完成后,会在当前文件夹(即,软件所在文件夹)生成csv结果文件
  4. 爬取过程中,每爬一页,存一次csv。并非爬完最后一次性保存!防止因异常中断导致丢失前面的数据(每页请求间隔1~2s)
  5. 爬取过程中,有log文件详细记录运行过程,方便回溯
  6. 采集结果有13个字段,含:博主昵称,博主id,页码,微博id,微博bid,微博链接,发布时间,发布于,转发数,评论数,点赞数,话题标签,微博内容

二、主要技术

2.1 模块介绍

软件全部模块采用python语言开发,主要分工如下:

代码语言:javascript
复制
tkinter:GUI软件界面
requests:爬虫请求
json:解析响应数据
time:间隔等待,防止反爬
pandas:保存csv结果
logging:日志记录

出于版权考虑,暂不公开完整源码,仅向用户提供软件使用权。

2.2 部分源码

软件界面:

代码语言:javascript
复制
# 创建主窗口
root = tk.Tk()
root.title('爬微博博主软件v1.0 | 马哥python说')
# 设置窗口大小
root.minsize(width=850, height=660)

爬虫请求:

代码语言:javascript
复制
# 发送请求
r = requests.get(url, headers=h1, params=params)
# 接收响应数据
json_data = r.json()

保存数据:

代码语言:javascript
复制
# 保存数据到DF
df = pd.DataFrame(
 {
'博主昵称': name_list,
'博主id': user_id,
'页码': page,
'微博id': id_list,
'微博bid': bid_list,
'微博链接': wb_url_list,
'发布时间': create_time_list,
'发布于': region_name_list,
'转发数': reposts_count_list,
'评论数': comments_count_list,
'点赞数': like_count_list,
'话题标签': topic_list,
'微博内容': text_list,
 }
)
# 保存csv文件
df.to_csv(self.result_file, mode='a+', index=False, header=header, encoding='utf_8_sig')

日志记录:

代码语言:javascript
复制
def get_logger(self):
 self.logger = logging.getLogger(__name__)
# 日志格式
 formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
# 日志级别
 self.logger.setLevel(logging.DEBUG)
# 控制台日志
 sh = logging.StreamHandler()
 log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
# info日志文件名
 info_file_name = time.strftime("%Y-%m-%d") + '.log'
# 将其保存到特定目录
 case_dir = r'./logs/'
 info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
           when='MIDNIGHT',
           interval=1,
           backupCount=7,
           encoding='utf-8')
 self.logger.addHandler(sh)
 sh.setFormatter(log_formatter)
 self.logger.addHandler(info_handler)
 info_handler.setFormatter(log_formatter)
return self.logger

日志文件截图:

log文件
log文件
以上。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 老男孩的平凡之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景分析
    • 1.1 开发背景与功能介绍
    • 1.2 软件说明
  • 二、主要技术
    • 2.1 模块介绍
    • 2.2 部分源码
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档