00:00
OK,同学们,那么接下来啊,我们要学一个比较高级的一个东西,但是呢,它还很简单,那干啥呢?我们说呀,我们能不能将爬取来的数据啊下载到本地,例如啥呢?例如视频对吧,例如音频,例如这个图片呢?哎,我们就通过代码来下载,这都是很OK的,也很简单的,来我们来看一下啊。来在这儿想创建一个新的文件啊,应该是055了吧,然后是上硅谷下划线爬虫下划线URL lib,那再再来一个,它叫啥呢?叫做下载,大家注意啊,虽然这个东西比较简单,但是它很重要。啊,它很重要,因为在接下来以后啊,我们的爬虫中,呃,有很多时候都会用到它,我们会下载一些图片,对吧?把这些图片做采集,采集到我们的本地,采集视频,这都可以啊,这都可以来同学们啊呃,这里边呢,注意啊,我们还是使用UR Li,所以在这儿呢,我们还要导入一下UR lib.request那么其实这个下载呀,我们都可以下载啥呢?第一个啊,下载一个网页啊,下载一个网页对吧?还可以下载啥呢?下载图片这都行啊,下载就一句话的事儿啊,下载图片还能下载啥呢?下载视频这都无所谓啊,你只要能找到资源咱都可以啊下载视频OK,那那咱咋办呢?假如说在这儿啊,我写一个这个啥呢?网页的地址,假如说URL下划线配置,那等于啥呢?等于H。
01:45
这TP还是拿它来下载啊,然后3W点百度点com啊下载咋下载,大家注意啊,这个方法很重要啊,很重要叫什么呢?叫URl.request点。
02:01
URL retrieve,啊UR retrieve这里边呢,有两个参数是需要我们要用的,来我再重新看一下,第一个叫做URL,第二个叫做fair name,那么我解释一下。这里边儿的参数是这个样子的啊,URL代表的是下载的啊,下载的路径,那么fair name代表啥呢?代表的是文件的名字啊文件的名字OK吧,各位,哎,是这样的,那也就是说第一个我要写一个URL,那在这呢,有同学可能就看到老师啊,你直接写URL行吗?或者说叫UR配置啊,你还是写URL等于UR配置啊,我告诉各位哈,在Python中。在Python中啊,可以写变量的名字。
03:03
啊,也可以直接写值,直接写值啥意思呢?在这儿你写URL等于URL配置也可以,你直接写URL配置也行,听懂了吗?各位,这是我们之前在讲参数的时候跟大家提过的,但我怕大家忘,所以说再次提一下啊好,那我这个案例啊就不加,下一个案例我再加,让大家都能会啊,都能会文件的名同学你们要知道哈,这个网站呢,它的返回结果是不是一个HTML文件?对吧,哎,是一个HTML文件,所以在这起个名呗,它的后缀啊,记住后缀很重要,它叫百度点HTML,那我们来看一下它能不能将百度这个页面给我下载下来呢?来右键运行它。诶这么快吗?完事了吧,那我现在我给打开一下,打开之后,诶这好像好多都来了,那它到底是不是呢?同学们你看在这儿啊,点开浏览器。
04:10
哇塞,是不是直接就来了,你看这是你Python爬虫里边的文件吧,是不是直接就可以了,对不对啊,所以现在呢,你就可以直接下载一个网页,有同学老师这没啥,你下载一个图片试试,试试就试试,对吧,那我先把这两个注释一下,咱们找一个图片吧,找个谁呢?随便百度一个。找个谁看一眼啊呃,百度图片,那是不是有个叫Lisa的。啊,图片是吧,诶随便找你们喜欢哪张对吧,随便找一张,假如说喜欢这张是吧,那么我右键在这有个是不是图片地址啊哎,复制一下这个地址链接,还有说这复制图片地址,我们来都可以啊来试试。在这呢,我们来写上叫URL下限1IMAGE纸等于啥,等于它,哎,等于勾PG,那么图片一般情况下注意啊,大家它的后缀是不是都是勾PG啊啊URL lab.request.urlri那这把呢,我们第一个就写UR,要等于这两种方式,同学们注意啊,它和它都行,爱写啥写啥,但一般情况下,其实我们在研发中啊,不太会去写前面这个名字啊,不太会写,因为麻烦哈,但你写上也行,写上更标准啊,更标准,那这里边写个啥呀?写一个这个URL image啊ul image,那是不是要给它起个名啊,叫fair name起一个啥呢?叫Lisa点勾PG。
05:45
啊,点勾PT我们来看一下啊,它能不能下载成功呢?来右键走你哎发现有了,看一眼是不是这意思,你很很方便嘛,对吧,那为啥说这样很方便呢?同学们注意啊,将来呀,你要爬取的这些数据,那可成千上百万的数据啊。
06:05
那你一个有的老师,你这还不如我右键保存呢,同学们,你一张行,两张行,十张行,100张努努力也行,1000张,1万张,100万张呢。你手是不是点废了呀,你的成员的生涯就天天的在于鼠标右键吧,是不是那行吗?不合适对不对。所以大家注意啊,这是可以的,那我说老师你能不能下载个视频呢?也没毛病啊,找个视频地址不就完了吗?来找一个。那假如说我们干啥呢?先把这个写上啊,叫做URL下线video视频吧,对吧,来找他找个随便找一个,只要你能找到地址,咱随便下啊随便下,然后找个视频吧。视频找个短点的,哎,就鸿星尔克的行吗?就最近鸿星尔克就点他吧,哎,我们来干啥呀,给他定个位,那行我你把这暂停下定个位啊嗯。
07:06
定位定位找谁呀,我们是不是要找这个里边的东西啊,对吧,我暂停一下啊,暂停一下来找他就点这个小箭头啊定下位,定位之后我发现了,就点个小箭头,唰一下就能定到这个位了,定到这位之后我发现这个啊video同学们看这里啊video video啥视频,视频里边的src就是啥,就是它的视频的地址。啊,就是他视频的地址,所以在这里边呢,我把这个视频的地址给它,双击它复制过来,然后呢,给它粘贴到这里,你别管它多长爱多长多长,对吧,咱管它呢,那么URL live点快点URL retri,那第一个是啊UR路径吧,UR video,哎第二个起个名呗,假如说叫红星尔克。
08:01
红星儿克YYDS点MP4啊,这里边注意啊,大家注意啊,视频的后缀一般我们用啥呀,用MP4OK吧,诶注意啊,但是我告诉大家呀,我这么运行啊,因为网速的原因,它下载的可能会稍微有点慢啊,但是大家稍等一下,还有一个跟大家说明一下的是啥呢?说我们这个拍char。他在内置的这个编译器中是没有视频播放器的啊,是没有视频播放器的,你别我一会儿下载完了,你再说击老师我不能播放,你就你就炸了啊,不是那样的啊,你得你看下完了啊,这没有这个东西,没有这个播放器,所以你要干啥呢?你在哪,你在这里边啊,你在你的这个这个代码中,你可以找找,诶不在这儿啊,在这里边代码,诶你下载到本地了,是不是点它。一个月之前,诶是不是下载成功了,对吧,大家困难企业,所以说在这儿啊,你要知道因为P它没有这个播放器,所以才要在本地看,那大家注意啊,你现在是下这点视频,那么同学们你看在不久的将来,我们随便找一个西瓜视频。
09:19
啊,西瓜视频我能不能一下子写对代码,把它全都爬到啊,这都洒洒水呀,都是小事啊,啊明白吗?大家一个一个下载多费劲呢,我能依次下下很多个对吧?好,同学们,那以上呢,就是我们关于下载的一个讲解,希望大家把这个学会啊,叫URL retrieve里边的两个参数不要记混,好同学们,我把视频暂停一下。
我来说两句