【微博爬虫】用python开发采集指定博主帖子的软件工具

原创

马哥天才3218

发布于 2025-10-21 17:18:03

10800

代码可运行

文章被收录于专栏：微博采集微博采集

运行总次数：0

代码可运行

本软件工具仅限于学术交流使用，严格遵循相关法律法规，符合平台内容合法合规性，禁止用于任何商业用途！

一、工具开发背景与效果

在数据驱动决策的时代，社交媒体数据分析需求日益增长。作为一名资深开发者，我注意到研究人员常需要获取v博公开数据进行学术分析。为此，我开发了这款专业级数据采集工具：爬v博博主软件。旨在为学术研究提供技术支持。

界面如下：

演示视频：BV1hJWyzDEsR

二、工具核心特性

2.1 系统兼容性

支持Windows和Mac双平台运行
无需复杂环境配置，开箱即用

2.2 数据采集机制

采用API接口协议进行数据获取
智能分页采集，确保数据完整性
请求间隔优化，符合平台规范

2.3 数据安全保障

实时增量保存机制
完善的日志记录系统
数据本地化存储

三、技术架构解析

3.1 前端界面

基于tkinter框架开发GUI界面，提供直观的操作体验：

简洁的输入区域

实时的进度显示

清晰的运行状态提示

部份实现源码：

# 创建主窗口
root = tk.Tk()
root.title('爬v博博主软件v1.0 | 马哥python说')
# 设置窗口大小
root.minsize(width=850, height=660)

3.2 后端处理

核心功能模块包括：

请求模块：使用requests库发送HTTP请求

解析模块：处理JSON格式响应数据

部分实现源码：

# 发送请求
r = requests.get(url, headers=h1, params=params)
# 接收响应数据
json_data = r.json()

存储模块：通过pandas进行结构化存储

# 保存数据到DF
df = pd.DataFrame(
	{
		'博主昵称': name_list,
		'博主id': user_id,
		'页码': page,
		'wb_id': id_list,
		'wb_bid': bid_list,
		'wb_链接': wb_url_list,
		'发布时间': create_time_list,
		'发布于': region_name_list,
		'转发数': reposts_count_list,
		'评论数': comments_count_list,
		'点赞数': like_count_list,
		'话题标签': topic_list,
		'wb_内容': text_list,
	}
)
# 保存csv文件
df.to_csv(self.result_file, mode='a+', index=False, header=header, encoding='utf_8_sig')

日志模块：详细记录运行全过程

部分源码：

def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 将其保存到特定目录
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,										when='MIDNIGHT',										interval=1,										backupCount=7,										encoding='utf-8')
	self.logger.addHandler(sh)
	sh.setFormatter(log_formatter)
	self.logger.addHandler(info_handler)
	info_handler.setFormatter(log_formatter)
	return self.logger

日志文件: