温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:01
人生苦短,我用Python,这是我用Python开发的微博评论的采集软件,呃,我们打开这个软件,看一下软件效果。软件打开之后需要登录,那我这里用我的自己的测试账号登录一下,登录成功之后进入这个软件的主界面。呃,我们看这个设置项,二级评论包含和不包含,那这个二级评论就是我随便打开一个微博。那这里就是一级评论,那针对这个一级评论的回复评论,我们称称为二级评论,我们可以按需选择包含或者不包含,那评论最大页这里可以任意指定啊,负一的话就是代表全部。那评论的排序可以按热度或者按时间,那也就是对应上对应网页上这个按按热度或者按时间啊,这个设置好了之后,然后填写微博链接,也就是说我们想采集哪些微博下面的评论,那这里支持PC端和M端两种链接啊,我这里提前准备了一些链接,那首先PC端支持这3种格式啊,第一种是这个带井号comment这种,也就是说从这里点击查看全部评论,这个ul。
01:16
啊对,Comment这种,那第二种呢,就是。他这个后缀是refer flag啊,这个是按照搜索搜索出来的微博的啊链接它就是这种格式,那第三种呢,就是没有后缀啊,就是直接这种这种格式啊,这三种PC端的格式都可以支持,那第二第二大类就是说M端,那就是我这里说的。支持M端这种链接,那也就是这种链接啊,那我这里以。PC端的链接格式为例进行采集。点击开始执行。呃,这里是说cookie读取成功开始爬取,共检测到7个带爬评论的微博。
02:09
那他现在开始爬到了第2/7条微博的第7页,第8页评论啊,从这个运行日志上可以看到采集进度。那现在已经采集到了第3/7个微博的评论。好,由于时间的关系,我这里就不再等待了,我直接进行一个停止啊看一下。这个采集结果。它提示说CSV保存成功,91905结尾的这个CSV,那也就是这个CSV,我们打开看一下采集到的数据。好,微博链接就是刚才填到软件上的这些微博链接啊,微博ID,这个是M端微博的微博ID。
03:06
页码。评论者的昵称。评论者的粉丝数,评论者的关注数。啊,评论者的主页链接。评论者的性别。评论者主页上的个性签名。评论的时间,年月、日、时分。评论的点赞数。还有发布这条评论的时候的所在的IP属地。啊,评论的级别啊,那这里都是跟评论,因为我刚才软件上啊,选择二级评论不管。以及最重要的这个评论的内容。那这就是这个采集到的数据,那还有这个软件还配有这个日志的记录,5月15号,那我们打开这个就是刚才软件运行的整个过程。
04:08
啊,方便问题的定位。好,这就是软件的一个演示过程,谢谢大家,我们下次见。
我来说两句