温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
这是我用Python开发的一个微博聚合采集软件,那它结合了我之前发布的微博采集的三股脑域一体,我们打开这个软件看一下效果。首先软件需要登录。登录进来之后,我们看这个软件,它支持三个功能,第一根据关键词爬帖子,第二根据主页链接爬帖子,第三根据帖子爬评论。我们来先演示第一个输入关键词,比如负责武术啊,散打多,关键词之间用竖线分隔。这个时间范围,我们为了时时间的关系,先选择一天采集最佳页,选择2下载图片,选择否点击开始执行。那这个时候软件就开始爬武术这个关键词的前两页,散打这个关键词的啊前两页。这个时候提示已发完毕,请检查326结尾的这个微博搜索帖子CSV,那也就是这个,那我们打开看一下这个数据,它包含的字段,关键词、页码,微博ID,微博的链接,用户昵称,用户的主页链接,微博的发布时间,微博的转发数、评论数、点赞数,以及最后最重要的微博内容。
01:14
好,刚才由于时间的关系,我这里下载图片选择否,那如果这个地方选择是的话,它会在当前文件夹生成一个以关键词命名的文件夹,它里面是二级文件夹,以微博的mid命名啊,每个二级文件夹里面是这个高清无水印的帖子图片。好,这是软件的第一个功能,我们相信演示软件第二个功能,根据主页链接发帖子,我们首先提前准备好了3个用户的主页链接。那由于时间的关系,我这里把时间范围改成1月9号到1月10号,好点击开始执行。那这个时候软件就开始采集这三个博主的啊,从1月9号到1月10号啊,这两天这一两天时间的啊帖子数据。
02:07
我们从日志上可以看到这个采集进度,它已经爬到第3/3个博主,好,全部博主已采集完毕,全部检查2458结尾的这个CSV,那也就是这个,我们打开软件看一下。它包含的字段啊,博主的昵称,博主的ID。页码,微博的ID,微博的bid,微博的链接,微博的发布时间啊,发布于这个是一个啊,它相当于它的一个IP属地,转发数,评论数,点赞数啊,话题的标签,最后一个微博的内容,正文内容,好,这就是第二个功能的演示,下面演示第三个功能,根据帖子发评论,那同样我们这里提前准备好了3个帖子,我们采集这三个帖子的按热度排序的啊,前两页评论啊。点击开始执行。
03:01
这个时候软件就开始采集这三个帖子的评论,那首先采集了3第1/3的帖子,现在开始采集第2/3个帖子,啊,每个帖子都是采集前两页,前两页按热度排序的。啊,前两页评论好,这个时候已经评论已拍摄完毕,请检查2621结尾的CSV,那也就是这个,我们看一下这个数据字段,微博链接,也就是刚才我填入的三个微博链接,微博ID页码,评论者昵称,评论者粉丝数,评论者关注数,评论者主页链接,评论者性别,评论者的个性签名。这条评论的发布时间,这条评论的点赞数,这条评论的所属IP属地啊,评论级别,这里是跟评论,因为我刚才选择的这个二级评论是不包含,所以这里都是跟评论,那以及最后最重要的评论内容,好,这就是这个软件的一个完整演示,谢谢大家,我们下次见。
我来说两句