00:00
人生苦短,我用Python,这是我自己独立开发的小红书的采集软件,那它的作用呢?主要是采集小红书的图片,我们打开软件看一下这个效果。软件需要登录。登录完成后,进入这个软件的主界面。我们看这个软件上需要填写搜索关键词和一些设置项,我们来随便写几个关键词,比如说上海旅游,上海美食。上海攻略那笔记类型我这里选择呃,图文类排序方式选择最热门的笔记下载,图片选择是前几条笔记,我这里选择5,就是每个关键词盘前5条的论文笔记采集,评论选择是评论页数我选2,每页有10条选择前两页,也就是每条笔记20条评论。好,这里点击开始执行。
01:19
那日志上提示该文件夹不存在,已创建上海旅游啊,也就是这个文件夹,它一会儿会往这个文件夹里写入图片文件,我们打开看一下,好,上海旅游的第一条笔记。001-01-02-03,这个图片的序号,前面的001是笔记的序号,后面的010203是图片的序号。好,我们看正在往这个文件夹里存入图片。好,开始采集评论啊,评论第一页,评论的第二页,一共有20条评论,已经存入这个CSV了,一会儿我们来看一下这个结果。
02:19
现在已经采集到第3个笔记。呃,正在往这个文件夹里写入图片。Break day and rise we speak your name we our eyes our hearts and into your beat where we walk they you'be with fire in our eyes.好,这个时候软件上提示全部关键词笔记已经拍完毕了,我们来看一下这个结果,好,这是保存了三个图片的文件夹,那同时呢,这个软件上提示,呃,CSV里的数据小数的搜索详情,2025,这个64501结尾的CSV,那也就是这个CSV,我们打开看一下。
03:26
那这个CSV里呢,保存的是笔记的啊,详情数据还有评论数据,我们来看一下这个。数据结果啊,关键词,也就是刚才我设置的这三个关键词记的序号啊,001 002,这个是每个关键词对应一个笔记区号,那它跟图片的对应关系呢?比如说呃,上海旅游啊这个图片,呃,001,就是前面这个短横线前面的001,这个是一一对应的啊,后面是图片的序号。
04:01
一共有每个关键词,一共有五五个笔记,就是就是我刚才设计的设设置的前五条笔记。啊,这就是呃,笔记和图片的对应关系啊,方便大家查找,那下面是笔记ID,笔记的链接,这是一个短链接啊,笔记的长链接,笔记的标题,文字标题。啊,笔记的内容这个就比较多了,正文内容,然后笔记的类型啊,我刚才软件上选的全部是图文类的啊,所以这个笔记类型全部都是图文。笔记的发布时间啊,笔记的修改时间。呃,笔记的IP属地啊,那有一些笔记它是啊,没有IP的,所以这里就是为空笔记的点赞数,收藏数,评论数,转发数。笔记的作者昵称作者都用快递。啊,作者的主页链接。
05:03
呃,这这这呃这篇笔记的头图链接,也就是第一第一篇笔,呃,这篇笔记的第一个图片的,呃图片链接,那如果这个笔记是一个视频类的,那也就是他的封面的图片链接。评论内容,那我这里选择了前两页,每页20条,也就是说前20条评论,那我们看这个标头,评论一,评论二,一直到评论20,啊,每每条笔记采集到前20条评论,我们来看一下下面。好,这就是一个数据的采集结果,下面看图片的采集结果。啊,一共生成了呃,三三个文件夹,没有文件夹对应一个关键词啊,这里面是所所有采集到的图片,那这个图片的命名规则跟CSV里的笔记数据的命名一一对应啊,刚才已经解释过了。
06:07
那最后呢,在这个logs里面还有一个日志文件啊,今天是7月16号,我们就打开这个日志啊,这里面记录了刚才软件运行的整个过程,方便问题的追溯。好,这就是这个软件的演示过程,我们下次见。
我来说两句