xhs_search_comment_tool | 2025自研小红书评论区数据采集工具

原创

马哥python说

修改于 2025-03-10 15:06:58

99900

代码可运行

文章被收录于专栏：小红书采集软件小红书采集软件

运行总次数：0

代码可运行

本软件工具仅限于学术交流使用，严格遵循相关法律法规，符合平台内容合法性，禁止用于任何商业用途！

一、背景概述

1.1 开发背景

小红书作为国内领先的社交电商平台，拥有庞大的用户群体和高活跃度，其笔记评论区域蕴藏着丰富的用户反馈信息。在合法合规、尊重平台规则及用户隐私的前提下，对小红书评论数据进行合理采集与分析，有助于企业深入了解消费者对产品与品牌的真实评价，从而更好地洞察市场需求、优化产品策略。

基于这一需求，我利用 Python 开发了一款数据采集辅助工具 ——【爬小红书搜索评论软件】。该工具严格遵循平台公开的接口规范和数据使用政策，确保数据采集行为的合法性与合规性。

软件支持两种合规的数据采集模式：

1、基于关键词的评论采集：在平台规则允许的范围内，用户输入合法的笔记关键词，软件通过关键词搜索获取相关笔记链接，并从中提取允许访问的评论数据。 2、基于笔记链接的评论采集：用户提供合法获取且平台允许分析的笔记链接，软件依此合规地提取相关评论信息。

用户可根据实际需求，在合法合规的前提下选择其中一种模式进行数据采集。

1.2 软件界面

软件界面，如下：

1.3 结果展示

在合法合规及遵守平台规则的前提下，展示符合数据使用范围的爬取结果示例：

爬取结果 1 - 笔记数据：

爬取结果 2 - 评论数据：

1.4 操作演示视频

软件在合法合规操作流程下的运行演示：

有的

1.5 软件使用说明

几点重要说明，请仔细阅读：

1. Windows用户可直接双击打开使用，无需Python运行环境，操作便捷。
2. 软件严格通过平台公开允许的接口协议进行数据交互，并非通过模拟浏览器等RPA类工具，确保稳定性与合规性 。
3. 先在cookie.txt中填入符合平台规定获取方式的自己的cookie值，方便重复使用（内附合法合规的cookie获取方法）。
4. 支持按平台允许的笔记类型（综合/视频/图文）和排序方式（综合/最新/最热）进行数据获取。
5. 支持多个的设置项有：在平台规则允许范围内的笔记关键词、笔记链接、评论关键词、IP属地 。
6. 每个关键词最多可采集220条笔记，与网页端在平台规则下的搜索数量一致。
7. 爬取过程中，每爬一页，存一次csv。并非爬完最后一次性保存！防止因异常中断导致丢失前面的数据（每条间隔1~2s，避免对平台服务器造成过大压力）。
8. 爬取过程中，有log文件详细记录运行过程，方便回溯，同时确保记录内容符合平台隐私政策。
9. 爬取过程中，在符合平台数据处理规则下，评论筛选同时进行。并非全部评论爬完再一次性筛选！所以效率较高！
10. 笔记csv含10个字段，有：关键词,页码,笔记id,笔记链接,笔记标题,笔记类型,点赞数,用户id,用户主页链接,用户昵称（确保各字段数据获取与使用符合平台及用户隐私相关规定）。
11. 评论csv含10个字段，有：笔记链接,页码,评论者昵称,评论者id,评论者主页链接,评论时间,评论IP属地,评论点赞数,评论级别,评论内容（确保各字段数据获取与使用符合平台及用户隐私相关规定）。

以上。