00:01
这是我用Python开发的采集抖音搜索结果的界面软件,那我们首先打开这个软件,看一下这个界面效果。这个软件上需要填入个人cookie和搜索关键词。那我们首先打开抖音的网页端搜索页,搜索任意一个关键词。我们前提是把这个账号登录上啊,这个账号必须要登录。打开开发者模式。网络XHR。我们选择视频这个tab页。往下拉这个数据,我们看到这个item开头的目标链接。啊,看他的预览数据。那这个data下面就是视频数据。我们选择标头请求标头cookie啊,把这一长串粘贴到软件上搜索关键词啊,我们这里设置啊,比如说奶茶啊麻辣烫。
01:11
嗯,咖啡多个关键词用空格来分隔,排序方式我们选择最新发布,呃,发布时间我们选择,呃,一周内吧,那这两个设置的筛选条件其实和网页上这个筛选是相对应的啊,这就是模拟的一个过程,好开始执行。那这个时候软件就开始爬取抖音的搜索视频数据了。我们从这个日志打印上可以看到爬取进度,现在开始排爬取麻辣烫,好,现在开始爬取咖啡第一页。咖啡的第二页。咖啡的第三页。
02:02
咖啡的第4页,这个时候软件提示全部关键词已爬取完毕,请检查抖音搜索2024647结尾的CSV,那我们来看一下这个数据,647结尾的CSV数据。那我们来看一下这个数据。啊,关键词就是我刚才设置的这三个关键词,呃,页码视频的标题。那视频的链接,作者的昵称,作者的抖音号,作者的主页链接。作者的粉丝数,视频的发布时间,那我们来重点看一下这个发布时间,因为刚才我的软件上选择的是一周内。那我们来看今天是1月12号,那一周内最早的时间是1月5号啊,证明了这个是一周内的时间。
03:09
视频的点赞数,视频的评论数,视频的收藏数,视频的转发数,那爬取的就是这些字段。好,我们再来测试一下其他的关键词,比如说搜索武术、跆拳道、太极拳好。那我们这里选择最多的点赞发布时间选择。一天内吧,好,开始执行。武术的第一页,武术的第二页。武术的第3页、第4页。跆拳道第一页。跆拳道第二页。
04:01
太极拳第一页好,全部关键词已爬取完毕,请检查抖音搜索856结尾的这个CSV就是这个。那我们再来看一下这个数据。关键词刚才我设置这3个关键词,页码、视频标题、视频链接、作者昵称。作者的抖音号,作者的主页链接,作者的粉丝数,视频的发布时间,那这个视频的发布时间,我们看一月的11号跟12号啊,也就是刚才我设置的这个一天内的发布时间,好视频的点赞数,视频的评论数,视频的收藏数,视频的转发数,好这个结果就是这样的,那软件运行的同时呢,还会生成一个日志文件,我们打开这个log目录,那今天是1月12号,我们打开1月12号,那这个里面展示的这些就是刚才软件运行过程中生成的日志文件啊,方便啊问题的定位,好这个软件的运行就是这样,我们下次见。
我来说两句