00:00
人生苦短,我用Python,各位小伙伴大家好,这是我用Python开发的一个YouTube评论的爬虫软件,那我们来看一下,运行一下,首先我先进入到终端。先查看一下当前的环境,跟咱一历史。那这里我创建了一个u comment的,呃,看环境,首先激活这个环境could be comment.那我们看到进已经进入了这个环节,然后用这个来运行这个爬冲爬冲代码。那我们看到这样,就弹出了这个软件的界面,来爬一下这个飞这首歌曲的YouTube评论,那它的视频ID就是地址栏里V等于后面这个ID就是它的视频ID,那么来放到这个地方。
01:09
让排序数量,那我们选择前100条排序方式,这里选择按日期排序好开始执行。我们看到程序已经在运行了,你发一条评论,前面有一个序号,那提示用户现在爬到多少条了,那最后它会输出这样一个Excel文件,我们点退出程序,我们来看一下这个文件。好,我们看到第一列是评论的ID号,第二列是评论内容,第三列是评论的时间,那这个时间是一个相对时间,我后面把它做了一个转换啊,转换成了这个绝对时间,这样就。
02:01
方便后面的数据处理,那这里是询问的作者的ID。评论的作者的频道ID。那这里是点赞数,我跟。把这个数据和前台页面对照看一下,看看是否他的是否正确。由于乌克兰选择的排序方式是按日期排序。那所以这里选择最新评论。我们对照看一下,第一条join me join me,第二条would give give,第三条it should it should,第4条I love the song,第5条一个点啊,基本上都是能对应上的,那也就是说这个评论。是正确的,这个送盘里的数据是正确的。那下面我再演示一下,他取另外一条视频的评论,那就是李子柒的这个播放量最高的这条评论这个视频。那同样我们把。
03:09
视频ID拿下来。嗯,再次运行这个软件。把这个时间地粘到这儿来,这次发起数量我们选择300条啊500条了,那这次我们选择按热门排序,就不按日期排序了,好开始执行。好,现在程序已经开始运行了,每排取一条评论,前面是有一个序号提示。提示用户目前爬取的进度。
04:50
好的,现在程序执行完成了,已经输出的结果文件,这个Excel文件我们退出程序啊,看一下这个结果文件就是这个文件。
05:00
我们打开看一下。那同样我们对照着页面看一下它这个爬取是否准确呢。那刚才我们选择的是按热门排序,那它YouTube网页上默认的就是按热门排序,所以这里不能变啊,直接对比数据。好,第一条5分56秒,谁tried to try to,这样是就是对上的。呃,评论时间是4年前,Four years ago.Anol啊,这也是能对上的,然后这个点赞数是646,也是对上的。好,我们继续看下一条按人文排序的第二条,I was always,第二条也是对上的,然后评论时间是3天前啊,Three days ago.然后点赞数是25啊,Mo是25啊,也是对上的,然后我们看第三条EU评论,时间是两周前,Two weeks ago.
06:14
Order是。等于an=an也是对的,那点赞数是35,点赞数30,好这个都是能对上的,所以呢,这个软件爬取的数据还是比较精准的,那这里再说明一点就是。这个软件是根据指定视频的ID,那视频的ID呢?就是从YouTube任意打开一个视频,然后在地址栏里或是问号V等于等号,后面这一串就是视频的ID,想把哪个视频I视频的评论,就把这个ID放到这个软件界面上来。然后爬取数量,这里可以任意指定,那如果是负一,默认是负一,负一就代表排取全部,或者你任意指定它的数量,三百三千等等啊,不要超过它的最大数量。
07:11
然后排序方式,按日期排序和按热门排序,那这里就对应页面上这个排序方式,热门评论和最新评论,所以这个软件支持的功能就有就有这些,然后最后输出一个Excel文件。那同时再说明一点,我现在是在我的Mac电脑呃,上演示的这个软件,那我是直接用Python运行的这个PY文件把它调用起来的,那我同时还在Windows电脑把它封装成了一个exe软件。啊,直接双击打开就能使用,不需要你的电脑上有任何的Python环境,那这样就方便,不懂技术或者是不会运行Python代码的人就直接可以使用,双击打开就能使用,那最后再说一点,运行这个软件的前提啊,就是这个啊,这个我就不讲了,大家都懂的好,谢谢大家,我们下次再见。
我来说两句