00:00
你好,这是我用Python开发的party小红书详情数据的界面软件,那我们来打开这个软件看一下效果,那软件的界面就是这样的,界面上输入需要输入cookie的A1和web session, 还有爬取的目标链接,那我们来看一下打开小红书的网页端,首先把账号登录上,这个账号一定要登录。然后打开开发者模式,我们任意选择一个笔记,点开它,点开以fade开头的目标链接,打开cookie这一项,然后我们可以看到A1和we session就在这个下面,我们首先复制A1的值,把它粘贴到软件上,然后复制web session的值粘贴到软件上,下面填入爬取的目标链接。那这里我准备了一些小红书的笔记链接,我们把它粘到软件上来点击开始执行哦,这个时候这个软件就开始扒去小红书的详情数据了。
01:31
那在软件的运行过程当中,会不断的弹出一个黑色窗口,那我们先不关心它,我们从这个运行日志可以看出爬起的进度,一共有21条笔记,现在爬到了第13条,那中括号里显示的是笔记的ID,后面显示的是笔记的标题,那有些标题是空的啊,我们知道有些小红书笔记是没有标题的,这个是正常的,那最后提示全部笔记已爬取完毕,请查看结果,小红书详情2023等等,点CSV。
02:15
那我们现在就来查看这个结果数据,好,我来调整一下这个Excel的格式。那爬取到的数据分为这些,笔记ID啊,根据笔记ID可以拼接出笔记的链接,笔记的标题啊,笔记的内容啊,这个内容就比较多了,就不展开了啊,笔记的类型分为图文类,还有视频类,笔记的发布时间啊,笔记的修改时间啊,这两个时间有可能是不同的,因为笔记发布之后有可能会被博主修改笔记的IP属地,点赞数、收藏数、评论数、转发数,笔记的作者昵称。
03:11
笔记的作者ID以及根据ID可以拼接出用户的主页链接,那我们来随便抽几个结果来看一下,比如说第一条,我们把它粘到浏览器里面,笔记的标题是中年事业36岁,中年事业36岁笔记的内容,嗨,大家好,嗨,大家好,那我们看到这个整个的笔记内容已经爬下来了啊,这个单元格已经展开了,笔记类型是图文啊,图文类的发布时间2023年12月4号。
04:02
2023年12月4号IP属地是浙江啊浙江。点赞数33。啊,它这里显示的10家收藏数是6,评论数是6啊,转发数他看不到,但是我也爬取下来了,呃,作者是even文妈妈在成长啊,用户的主页链接啊,我们直接来打开它,好,这个也是没错的,好,我们再来找一条视频类的,比如说这个链接,那可以看到这是一个视频类的笔记,香港购表,Data just data just啊这是笔记标题,那笔记内容啊,是这些啊,下面这些笔记的内容。
05:13
2023年12月4号下午一点,IP属地是中国香港,点赞数1,收藏数1,评论数1啊这个也是匹配的,那我们看他的作者是香港名表专家汤米啊,这个也是对的,我们直接打开这个用户的主页链接。啊,这个也能对上啊,所以的爬取结果还是很准确的,那我们再回过头来看一下这个运行日志里面其中有一些。错误的笔记链接,我们来看这一条,请检查笔记链接是否正确,那我们直接把这个复制下来啊,替换到这个笔记链接上,打开它啊,这里提示你访问的页面不见了,那也就是说这条笔记链接是错误的,它是不存在的啊,所以软件就提示了它啊,不正确啊,但是这条笔记它不会影响程序的中断,它会继续往下爬爬取啊,保证最大爬取量,那同时再说一下,这个软件运行的过程当中会生成日志文件,那今今天是12月21号,那我们就打开这个日志文件。
06:40
那这里显示的就是刚才软件整个运行过程当中的一些日志啊,方便问题的定位。好,这就是整个的一个扒曲过程,谢谢大家,我们下次见。
我来说两句