00:00
哈喽,大家好,这是我用Python开发的小红书评论的采集软件啊,我们打开软件来看一下这个界面效果,那首先软件需要登录,那这里我先用自己的测试账号先登录上,登录成功之后会提示一个有效期啊截止日期啊,这里点击确定就进入了软件的主界面。那软件上主要提供这两种爬取思路,第一种是通过关键词呃,采集它下面的笔记,然后再进而在采集笔记下的评论,那第二种思路就是根据笔记链接采集它下面的这些评论,那我们先进行第一种通过关键词,那我这里提前准备了一些关键词啊,这是笔记的筛选关键词,这是这些笔记类型选综合,排序方式也选综合笔记最大页这里我选前三页吧。好,下面是评论的筛选项。那评论的。
01:00
关键词是这些IP属地啊,我筛选这些IP属地下的评论啊,评论的时间我筛选这个时间段下面的评论,评论最大页我们爬前两页吧,呃,二级评论我们这里先选不包含,为了加快它的采集速度,先选不包含啊,采集最大量这里选负一,默认全部好点击第一个按钮,通过关键词采集啊,这个时候。软件就开始爬这个关键词下面的笔记了啊,他的思路就是先爬完所有的笔记,然后再爬这些笔记下的评论,那我们可以看到进度现在排到了小米速七第二页,第三页,呃,未来的第二页。未来的第三页。啊,理想的第一页,理想的第二页。立项的第3页。
02:02
啊,这里有一个去重的操作啊,也就是说多少关键词下面它有可能有重复的笔记,那我这里进行了一个自动的去重,去重之后在采集这些笔记下面的评论,我们看这个采集进度。一共有230个笔记啊,现在开始采集到了第5个笔记,下面的第一页,下面的第二页。我们可以看到这里有一个提示叫做筛选后数据量啊4,那也就是说现在已经爬到了目标评论,一共爬到了4条啊,所以说从这个日志上我们也可以看,可以看到采集的当前的数据量。啊,现在进行到了230个笔记的第14个笔记,那这里由于时间的关系,我就先把它停掉啊,我们来直接看一下它的采集结果,我们还是在当前这个目录下,我们先看小红书搜索啊这个采集结果。
03:01
那这就是刚才我软件上设定的这几个关键词,这几个关键词的前三页笔记啊,这就是笔记的数据,那我们再来看评论的数据。我们来对照刚才设置的筛选条件看一下啊,评论的关键词是这些,那也就是说这些评论内容都是包含这些关键词的IP属地,我们看一下。江苏河北广东啊,广东啊,就是我现在设定的这几个IP属地,那评论的时间我们看一下,2024年1月到10月啊,也是在这个筛选时间范围内啊,评论的页数最大前两页啊,最大前两页二级评论不包含啊,这里都是跟评论不包含二级评论,那这就是第一种发起思路,那我们现在进行第二种发起思路,通过笔记链接进行采集,我们先退出程序啊,重新打开这个软件。
04:04
好,再登录一下这个软件。那我们这次就进入就进行第二个思路的采集,通过笔记链接采集,那我这里提前准备了一些笔记链接啊,把它粘到这个框里面,那这个评论的这些筛选项还是用这些啊,关键词IP属地,评论时间范围啊,评论最大页还是选择前两页吧,啊这个二级评论我们这次选择包含。啊,我们来看一下效果,采集最大量还是采集默认的最大量好,点击第二个按钮,通过笔记链接采集,共检测到4个代法笔记,那我们可以看到当前的采集进度,那现在是2/4的笔记。那么可以看到现在已经包含2级展开评论了。
05:00
因为我这里设定的二级评论是包含。那现在的这个爬取进度我们看一下。4/4个笔记啊,也就就是最后一条笔记了。好,下面已已经提示了,筛选后的数据量是5,也就是说最终爬到5条目标评论啊,我们来看一下这个结果,小红书评论3354结尾的这个CSV 3354结尾的这个CSV。啊,我们对照着这个筛选条件看一下。那笔记链接啊,这里就是我刚才设定的这4个啊笔记。啊,评论内容包含这几这些关键词的评论内容IP属地广东河北,包含在我设定的这些IP属地里面,评论的时间2024年9月8月啊是包含在1月到11月之间的评论的最大页啊前两页。
06:19
二级评论包含啊,这里是包含二级评论的。跟评论和二级评论都包含了。好,这就是软件的一个演示效果。呃,通过这两种思路都可以进行采集评论,支持这2种采集评论的功能,退出程序,好,谢谢大家,我们下次见。The end.
我来说两句