温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
这是我用Python开发的小红书评论的采集软件,我们把软件打开看一下这个效果,这是软件的界面,需要填入个人cookie和笔记链接,然后就能爬取了。那这里我选了三个巴勒斯坦相关的小说笔记,我们把这个目标链接给它复制下来,粘贴到这个输入框里。我们在复制这个链接的时候,注意把问号前面的这一段复制下来就可以了,问号后面的就不需要了。好,下面复制第三个。链接好,这样爬取目标就设定好了,下面输入个人cookie,那这个cookie怎样获取呢?我们打开小红书的网页端开发者模式。往下拉这个评论的数据。多拉几次,然后看到这条链接,它的请求头里面cookie啊,把这一整段复制下来,粘贴到软件上,点击开始执行,那这个时候软件就开始爬取。
01:12
小红书评论。那由于我这里同时爬起三条三个笔记的评论啊,需要一些运行时间,我们等待一下。那从这个运行日志里边我们也能看出,这个软件支持一级评论、二级评论和二级展开评论,所以帕德的数据是比较全的,等这个软件运行完之后,会生成一个Excel文件,我们稍后来看一下,好,软件运行完毕们打开文件夹里的这个Excel文件。我们看一下这个结果,设置一下数据筛选。
02:09
笔记链接,也就是刚才排起的三个目标页码评论的页码,评论者的昵称。评论者的ID,评论者的主页链接,评论时间,那这个评论时间也都是标准的时间格式,评论的IP属地。评论的点赞数。以及最后最核心的评论内容,那这里评论级别分为三种,一级评论、二级评论和二级展开评论,我们再看一下这个评论内容。这些都是巴以冲突相关的一些小红书评论。好的软件就是这样运行的。
03:04
谢谢大家。
我来说两句