00:00
OK,同学们,那么上节课啊,我们把这个SC已经安装完了,包括呢,你在安装过程中你遇到的一些问题,我们也知道怎么去解决了,那既然呢,我们万事俱备是吧?诶接下来我们要干啥呀,我们就开始来使用script这个框架,然后呢来写项目,那在这里边呢,大家注意啊,他写项目的时候呢,先给大家提个醒。开始的时候,但各位同学会稍微的有点不太适应,你不太适应在哪呢?你发现呢,你只写几个单词,然后呢,他就给你提供了很多很多的文件啊,大家看着可能会有点懵,但是不要过于担心,原因是啥呢?你写几个之后,你发现他们是有一个规律的,也就是说它的工作原理上,我们再给大家去讲解就OK了啊,所以在最开始的时候,同学们不要过于去担心,好那么接下来啊,我们就要用SCP来创建一个项目,对吧?来爬取一下这个百度,哎,我们用老的项目,老的网站来讲解新的知识点,这样的话大家好接受一些啊好,同学们,那接下来我们要干啥呢?我们要创建项目了,那开P怎么创建项目呢?同学们注意啊,它创建项目呢,并不是像以前我们一样。在这我。
01:26
拗一个这个什么什么文件不是的,而是啥呢?而是要在我们的终端中,也就CMD,诶在终端中去使用这个指令来创建与之对应的项目啊,创建与之对应项目,那这个项目我们应该创在放在哪个文件夹下呢?同学们,我还想放在哪啊,当然你无所谓啊,你放哪都行,我还想放在这个文件夹下行不行呢?可以吧各位,因为这样的话,到时候给各位同学传递课件的时候,我们就方便一点。
02:00
那我怎么切换到这个文件呢?怎么在这个文件夹下去创建项目呢?首先在这儿我们打一下CD,然后啊,教各位同学一个非常简单的操作,我把它拖过来,哎,拖过来之后,此时就是它的路径了,我进到这里边,你看神奇吧各位,哎,好,当我们把这进入到这个目录之后,我们就可以干啥了呢?使用script的指令来创建script的项目,但是啊,各位同学,一会儿我会给他写笔记,你在创建项目的时候有很多需要注意的地方。首先这个项目的名称啊,不能以数字开头,为什么呢?你看啊,这里边是不是之前都是以书字开头的,诶我们看是不是都以书字开头的,在这儿同学们我们就不能把书字开头的,这是script的一个规定啊,还有一个就是汉字也不行啊,汉字在创建爬虫文件的时候不行啊,在创建项目的时可以这个呢,稍后我们再来说,那现在接下来我们先创建一个项目来创建项目指令是P。
03:09
啊,Start pro起个名啊,这个名起啥呢?假如说起一个叫做下划线啊,叫啥呢?叫百度下划线,给他一个什么同学们,我给他一个数值091对吧?哎,为了和这个数字能对应上,大家也知道是怎么去找的走。好,同学们,同学们看可能说看快了,同学说老师你这个是不是报错了呀,对吧,我告诉各位啊,这是没有错的,你看人家说了,说你可以开始一下。你可以开始一下你的第一个爬虫项目,对吧,然后下边是有个向导,那么同学们这创建完之后在这里边有吗?同学看有没有各位,但是创建完之后你发现很夸张啊,同学们,它很夸张啊,咋的了,他是不是就三个单词直接就给你这么多的东西啊,是吧?诶很夸张。
04:12
那么现在我们先在这里边啊,写个小笔记啊,我创建一个啥呢?创建一个test的文件在这里边,哎,我们先写上啊,第一步叫啥呀,叫创建爬虫的项目,怎么创建呢?叫SCP加上start project加上项目的名字,那有一个需要注意的点哈,注意啊,项目的名字不允许。和谁呢?不允许使用啊,使用数字开头,这不可以啊,也不能。包含中文啊,因为啥呢?因为这个后边的爬虫文件那块它会报错,所以说不允许包含中文,这是我们创建爬虫项目,那创建爬虫项目之后同学们。
05:12
我们接下来要干啥,说在这里边啊,它提示你了,你要到哪呢,到CD,然后CD到哪SCP,然后百度091,也就是他。对吧,在这里啊,他让你进去到这个文件夹下,但对不起,我们不进去它,我们进到哪呢?我们进到spid斯文件里边,诶,我们进入到这里边儿之后,然后在这里边儿来创建爬虫文件。其实我们的代码基本上都是在这个爬虫文件中去写的,一会我们来创建它啊,那这里边都有啥呢?它暂时只有一个init的一个PY文件,我们先不用去管它,第二步同学们要注意了,第二步我们要做的是叫做创建。
06:07
爬虫文件,那么创建爬虫文件我们应该怎么创建呢?首先要在哪spiders文件夹中去创建爬虫文件,这是必须的,那你是不是得跳到那里边啊,怎么进去啊,是不是CD,然后加上啥呢?加上这个项目的名字啊,SCP_百度下线091啊,然后他下边的谁呀,是不是还是他呀。对吧,然后再下边的什么spiders是吧,各位,哎,你可要看好这个层次关系好,那么紧接着大家注意啊,其实它是这个样子的,CD叫项目的名字反斜杠,再来一个项目的名字。
07:06
然后再反斜杠,然后叫啥呀,Spiders,哎,是这样的啊好这玩意儿之后呢,我如何去创建spiderers,也就爬虫文件是这么创件叫做scray j spider,那j spider然后加上啥呢?加上爬虫文件的名字,然后加上啥呢?要爬取的网页,哎,要爬取的网页,那同学现在有点懵了,那老师你说的是啥呀,大家对不对呀,我们项目部创建完了吗?那接下来看我们要在这个spiders里边去创建啥呢?去创建爬虫文件,所以说我先进来咋进来CD啊SC,然后百度01SC。
08:00
哎,百度零幺,然后加上啥呀,Spiders对吧,你进到这里边,你去创建爬虫文件,怎么创建来着,在这了写上scy j spider啊j spider爬出文件的名字,我们起个名吧,叫啥呀,叫百度,那你要爬取的这个域名,要爬取的网页是啥呢?在这里边说实话啊,同学们,一般情况下我们不会写HTTP啊,我们会直接写3W点百度点。com,那为啥呢?同学们,我马一会儿来告诉你,马上就知道了,走好,同学们。在这呢,提示了啊,说创建了爬虫文件,百度百度,那我们来看一下呗,说这里边有吗?走它,诶看到了吗?同学们是不是有啊,在这我再写一个啥呢?它的一个应用案例是吧,这样的话大家有一个对比,Script spider加啥百度,然后加上啥呢?域名要排序,网页HTTP冒斜线3W,不需要加引号啊百度点com,那我说过一般情况下啊,一般情况下不需要添加啥呀,HTTP协议啊,为啥呢?你看这里啊走同学们,这个就是你刚才写的域名之所以不让你添加。
09:28
是是因为啥呀,是因为它这个起始URL前边它就自动给你拼接一个它,而这个路径就不成立了。啊,一会儿我再来准确的说明一下,那么这个文件都有啥特点呢?来有几个,我先给大家写一个注释在这里边,这个叫爬虫文件,爬虫的名字叫爬虫的名字一般用于啥呢?用于运行,运行爬虫的时候使用的值。
10:07
啊,一会儿我再告诉大家,那这个叫啥呢?它叫允许访问的域名,啥叫语音访问,我现在爬百度,那我突然间我在中间插一杠子,我爬淘宝爬京东行吗。是不是不行各位,所以这个是我们允许访问的域名,你除了这个域名之外,或者它下边的子集域名之外,那么不允许有其他的域名去访问,明白各位,哎,只允许访问的域名,那这个叫啥呀?这个叫起始的。起始的URL地址啥叫起始的UR地址呢?指的是。指的是第一次要访问的域名啊,那有同学老师啥时候第二次啊,大家你要注意啊,我们后期会爬啥呢?会爬出,假如说第一页访问域名之后,我通过第一页点进去,进到第二页,那么第二页的数据也是我们想要的时候,我们就知道了,对吧?哎,这是第一次要访问的啊,第一次要访问的,所以说这里边儿为什么啊,注意啊,这个start URL是啥呢?是这个是在。
11:35
Louds的前面添加一个啥,你看到了吧,是不是添加了htt冒斜线呢,添加了它,然后在allows这个值的。写上后边同学们注意啊,在它的后边又添加了一个啥呀,一个斜线,哎,那么之所以我去这么写,大家注意啊,为啥我不让你在这儿去加HTTP的原因是因为因为来了吧,因为来了吧start的值是根据谁loudins它的值改变的,修改的。所以如果。
12:36
添加了HTTP的话,那么谁起始的ul就是start ul的值就需要我们手动去修改了,同学们听懂了吗?各位,哎,你要干啥呀?你要把它干掉,明白了吧?这就是啥呀?这就是我们刚才为啥不让你去写HTP的原因了,当然你写上我们再把它删掉,我们也不认为你是错的,听懂了吗?各位哎,千万要注意啊,这里边现在有三个啊,一个就是name,这是爬虫要运行爬虫的时候要用的,一个叫允许访问的域名啊,啥允访问名,你下边你起始UR,你自己定义了,你写个京东,那他能访问吗?
13:24
不能反问为啥呀,因为他不允许呀,它只允许谁呀,他是不是只允许百度啊,所以在这里边啊,这是不一样的地方啊,千万注意,这是不一样的地方。好,同学们,那这个是一个啥呢。大家注意啊,这个是运行,是执行了起始URL之后啊,之后执行的方法,那么方法中的response就是什么啊,就是给返回的,返回的那个对象就是我们的相当于啊写上。
14:10
相当于U这个response这个response一样啊,等于U方点request。点什么URL open,哎,这个一样还相当于啥呢。Respond等于什么requests.get哎,都一样,就是它,它已经有了,你不需要再去干啥了,去执行这堆操作了,不需要了啊,而在这里边我们先别着急去使用response,我先打印,一句话,打印啥打啥呢,叫苍茫的。天涯是我的爱,明白各位爱是我的爱,那这里边之后我咋运行,你看呢,同学们,这个是不是都是人家给你生成的,你啥也没干,你唯一写的一句话就它。
15:04
是吧,很神奇的样子啊,对吧,你唯一写的一句话就是他啊,啥也不用去管啊,啥也不去管好,OK同学们,那接下来啊,我们要干啥呢?你这玩意儿写完之后它咋运行啊是不是,所以我们还剩一步就是啥呢运行。啊,运行爬虫代码咋运行呢?大家注意啊,是这么运行的,叫SCCRA啊SCCRA加上啥爬虫的名字,这个爬虫的名字是谁?是不是各位不就他吗?对吧,哎,就是这里边写个EG啊,就是SCCRA加上啥叫百度明白不对,哎,是这样的啊,那同学们接下来我们就来运行一下,看我们运行结果会不会啥,咱不说你会执行这个啥这个方法了吗?那这句话会不会打印呢?来看一下来执行啊叫sc crave好加上啥叫百度走你。
16:14
好,这里边我们得看看有没有这句话,走走走走走,我们发现呢,他好像没给我们这句话,那为啥没国际化呢?他应该做了一些许的反扒,这个反扒是啥意思啊?就是人家限制你了呗,第一个谁限制了,看这里边要注意啊,第一个我们要改的东西叫robots协议,啥叫robot协议?同学们,它是一个君子约定,君子约定就是你不能爬我百度。啊,不能爬我百度啥意思,给大家找一找啊找一找,呃,那假如说我们在这看一下啊,看可不可以看到百度的,他在后边再加一个啥,加一个叫robots。
17:03
点TST走,大家你看你当你在域名下边加了一个tit的话,他说了啊,你百度的spider你能不能去爬是吧,云云,你看这不DC吗,能爬吗,都不能爬,然后这个什么谷歌的是吧,然后这个MSNBOO的,然后这个什么叫百度spider image,什么有道的呀,搜狗的呀,什么什么之类是不是很多很多呀,这个叫啥呀,同学们,这个叫君子协议。啊,给大家看一下,啥叫君子协议,就是各大厂商啊,各大厂商咋的互相有个约定啊,你也别怕我,我也别怕你,咱是这样的,但是而我们爬虫文件,我们需要遵守吗?啊,不能,那有句话说的好哈,防君子,但对不起他,不防我们那同学老师,那你这咋改呀?告诉各位看啊,这里边有个塞艇斯啊,我们接来很多的代码呢,都是在这里边写的,那么这个settings里边有一个东西叫啥robots啥等于处,哎,让你干啥呀,去遵守热包协议,那我们咋整?对不起了,我们不需要遵守你了,是吧?哎,默认情况下是遵守的,而我们不需要遵守的,那我们来看一下,走你。
18:23
我们再看有没有给我打印啊,同学们,你看有没有OK吧,各位,这不就是苍茫的天涯,是我的爱吗?哎,所以说大家注意啊,你由于去使用了SC,那它是人家光明正大的一个爬虫软件,那你去爬它的时候,在这个理论上来讲啊,同学们注意啊,理论上来讲咋的,我必须得遵守,但是那但是我要干啥,我可以把它注释掉啊,如果写着。注释掉之后,那么就不可以咋了访问了,听懂了吧,注释掉之后,它就不是不可以访问了,就不遵守啥这个robots协议了,它是一个。
19:13
君子协议啊,君子协议一般情况下啊,我们不用遵守啊,不用遵守OK吧,各位好,这就是啥呀,同学们,我们刚才带各位同学体验了一下爬虫的一些基本操作啊的爬虫基本操作在这里边呢,我们还有很多很多东西啊,一会儿呢,我们会再会去讲啥呀,它的这个response里边,这个里边啊response里边都有啥呢?我们一点点来啊一点来好同学们,那这就是的一个基本使用项目的创建,然后爬出文件的定义以及运行,OK,那我把视频暂停一下。
我来说两句