【软件演示】小红书详情批量采集工具，含笔记正文、发布时间、转评赞藏等原创

2024-06-242024-06-24 15:01:49播放3.7K

点赞0 收藏 0

用python开发的小红书详情采集软件。

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
你好，这是我用Python开发的party小红书详情数据的界面软件，那我们来打开这个软件看一下效果，那软件的界面就是这样的，界面上输入需要输入cookie的A1和web session, 还有爬取的目标链接，那我们来看一下打开小红书的网页端，首先把账号登录上，这个账号一定要登录。然后打开开发者模式，我们任意选择一个笔记，点开它，点开以fade开头的目标链接，打开cookie这一项，然后我们可以看到A1和we session就在这个下面，我们首先复制A1的值，把它粘贴到软件上，然后复制web session的值粘贴到软件上，下面填入爬取的目标链接。那这里我准备了一些小红书的笔记链接，我们把它粘到软件上来点击开始执行哦，这个时候这个软件就开始扒去小红书的详情数据了。
01:31
那在软件的运行过程当中，会不断的弹出一个黑色窗口，那我们先不关心它，我们从这个运行日志可以看出爬起的进度，一共有21条笔记，现在爬到了第13条，那中括号里显示的是笔记的ID，后面显示的是笔记的标题，那有些标题是空的啊，我们知道有些小红书笔记是没有标题的，这个是正常的，那最后提示全部笔记已爬取完毕，请查看结果，小红书详情2023等等，点CSV。
02:15
那我们现在就来查看这个结果数据，好，我来调整一下这个Excel的格式。那爬取到的数据分为这些，笔记ID啊，根据笔记ID可以拼接出笔记的链接，笔记的标题啊，笔记的内容啊，这个内容就比较多了，就不展开了啊，笔记的类型分为图文类，还有视频类，笔记的发布时间啊，笔记的修改时间啊，这两个时间有可能是不同的，因为笔记发布之后有可能会被博主修改笔记的IP属地，点赞数、收藏数、评论数、转发数，笔记的作者昵称。
03:11
笔记的作者ID以及根据ID可以拼接出用户的主页链接，那我们来随便抽几个结果来看一下，比如说第一条，我们把它粘到浏览器里面，笔记的标题是中年事业36岁，中年事业36岁笔记的内容，嗨，大家好，嗨，大家好，那我们看到这个整个的笔记内容已经爬下来了啊，这个单元格已经展开了，笔记类型是图文啊，图文类的发布时间2023年12月4号。
04:02
2023年12月4号IP属地是浙江啊浙江。点赞数33。啊，它这里显示的10家收藏数是6，评论数是6啊，转发数他看不到，但是我也爬取下来了，呃，作者是even文妈妈在成长啊，用户的主页链接啊，我们直接来打开它，好，这个也是没错的，好，我们再来找一条视频类的，比如说这个链接，那可以看到这是一个视频类的笔记，香港购表，Data just data just啊这是笔记标题，那笔记内容啊，是这些啊，下面这些笔记的内容。
05:13
2023年12月4号下午一点，IP属地是中国香港，点赞数1，收藏数1，评论数1啊这个也是匹配的，那我们看他的作者是香港名表专家汤米啊，这个也是对的，我们直接打开这个用户的主页链接。啊，这个也能对上啊，所以的爬取结果还是很准确的，那我们再回过头来看一下这个运行日志里面其中有一些。错误的笔记链接，我们来看这一条，请检查笔记链接是否正确，那我们直接把这个复制下来啊，替换到这个笔记链接上，打开它啊，这里提示你访问的页面不见了，那也就是说这条笔记链接是错误的，它是不存在的啊，所以软件就提示了它啊，不正确啊，但是这条笔记它不会影响程序的中断，它会继续往下爬爬取啊，保证最大爬取量，那同时再说一下，这个软件运行的过程当中会生成日志文件，那今今天是12月21号，那我们就打开这个日志文件。
06:40
那这里显示的就是刚才软件整个运行过程当中的一些日志啊，方便问题的定位。好，这就是整个的一个扒曲过程，谢谢大家，我们下次见。

展开

我来说两句

0 条评论

登录后参与评论

作者

马哥小迷弟132

【软件演示】小红书详情批量采集工具，含笔记正文、发布时间、转评赞藏等原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐