00:00
OK,同学们,那么接下来啊,我们要讲一个独门秘籍,那这个叫啥呢?叫crave spider,那现在其实你可以去网上去查一查,很少有关于他的一些这个说明啊,但是呢,他确实很好用啊,确实很好用,然后大家有的同学可能看到老师你为啥在上边写的啥呀,为啥在上边写了这个Mexico和py Mexico啊,因因为啥呢?因为一会儿啊,我们要使用Korea spider去爬取数据,爬完之后呢,我再将数据放到数据库中,那考虑到很多同学呀,并没有安装这个MYSL也不并不会用,所以说我把安装的这个不这两个比较好的链接我放在这儿了,那如果说有兴趣的同学可以在这安装一下MYSQL啊,当然了,我在这儿有同学老师,那我也不会写MYSQL的语法啊,那我会给大家写一个非常非常的通俗的给你封装起来的这么一个。
01:00
方法让大家去用,那以后呢,如果你要想将其他的数据爬取来,那你也可以按照这个结构来去修改啊,这就是我们的目的。呃,这个cor spider它到底是啥呢?对吧?我们得先聊一聊,首先同学们我们要知道它,它继承自scpp spider啊,这个我们一会儿就能看到了哈,还有一个就是啥呢?它可以定义规则,在解析H的时候,可以根据链接提取的规则,然后再向链接发送请求,啥意思啊,同学们,啥意思啊,来大家看一下啊,我们接下来要爬到网站叫做读书网。啊,读书网这个网站之前给大家观察过,对吧?这个读书网呢,我们要爬取随便吧,找一个当代小说啊,当代小说,那我现在问一下同学们哈,我不知道这里边一共有多少页啊,我们之前爬当当网的时候,是因为我们能看到他有100页,所以呢,我们爬取了100页,那现在我是不是不知道啥呀,我不知道这里边有多少页,同学们对吧?那这个有啥用呢?啥叫链接提取啊,大家看啊,我在这儿右键鼠标啊,鼠标右键检查。
02:21
各位同学,大家可以看一下所有的这个什么,它的一个链接是不是都是一样,有点类似的呀,对吧,原来前面都是BOOK1188下划线加上页码的名字啊同学们。没问题吧,各位,诶,你这个得知道,那么我想问的是,我想问的是同学们,请问我们每一页的解析的语法一样不一样。肯定是一样的吧,那肯定是一样的嘛,那我没有必要再去干啥呢,我我我现在假如说我做一桌事儿,做一个什么事啊,我把当前页面所有符合我的一个规则的链接提取出来。
03:04
对吧,所有符合我的一个链接的规则提取出来。提取出来之后,我在干啥呀,我在对它进行访问,是不是就OK了呀,对吧,所有我定一个规则,你只要符合我这规则了,我就把你的链接拿到,然后我就对你干啥进行解析,大家能理解我意思吧,那有同学老师,那你后边这些页咋整啊,没关系,我们可以跟踪啊,这一会儿我们就能看到了,我们先让大家有这种感觉,我知道怎么去处理,知道怎么去做。就OK了啊,大家注意啊,我现在再说一遍,我要把当前我定一个规则,然后把当前页面所有符合我这条规则的这些链接提取出来,然后对它进行解析就OK了。好,同学们,这就是cor spider的它的一个作用,那接下来呢,我们先干啥呀,我们先一点一点的试试它的语法咋写啊,然后我们要这些链接啊呃,现在呢,我为了简单一点哈,我们用使用啥呢?我们使用script shell吧,啊script she,那这里边咋来呢?叫sc shell是吧?啊加上谁呀,加上这个地址。
04:19
我们要对它进行一次这个链接提取走,嗯,这个地址,那这个地址大家注意啊,首先我们来看一眼哈,它是属于谁呢?这个链接提取器啊,链接提取器它是在SC下边的link。LINK1STRICTS,然后下边的link strict是吧?哎,那么我们现在来试试呗。来给它打开,你先导入一下链接提取器,也就是说from。From sc点什么叫link?然后叫tractors对吧,它下边的谁呀?Import好,它下边的叫链接T,去link一个traor。
05:12
好,看到了不,哎,那我们现在呀,就导入了这一个链接提取器,那这个链接提取器都能提取啥呢?大家注意啊,在这里边我们主要用的是什么一个lo。它提取的是正则,这个很简单,一会儿我们来说还能提取的就是我们的叉pass,还能提取的就是我们的CSS,像其他这几个我们不用啊,但是它有,所以在我说了一下就是然后restrict restrict CSS这三个是我们比较常用的。啊,对于链接提取,也就是对于cross CRA spider来说,我们alone是用的最多的一个,那它是啥意思啊,看啊同学们,我们这么写说link呀,等于这个链接提取器,我们不刚写的嘛,是吧,一是这个的。
06:07
来诶sorry啊哎,在这里边我们有一个参数,刚才说了叫啥呀,Alone alone等于谁呢?大家注意啊,前面写个R,然后呢,中间写一些我们想要的它的正则表达式,那这里边的正则表达式指的是谁呀?假如说我对它阅先检查。前面是不是都是关于book的呀?是不是book,然后幺幺这个1188下划线是只有中间这个数字不一样吗?其他的是不是都一样啊,对吧,各位,所以说现在我们用它应该咋写呢。应该咋写呢?我们这里边儿要写上。提取的是谁呀?啊,写上book来个反斜杠啊,来个反斜杠book,然后下边的下边的啥1188,然后紧接着下划线,下划线后边是不是我们写啥都行啊,大家注意啊,一般情况下我们再用反斜杠D加,那这个反斜杠D代加代表啥呢?反斜杠D我告诉各位同学,它代表一个数字。
07:20
啊,代表数字,这个加号代表的是什么?这个可以有一到多个数字啊,同学们注意一到多个数字,一会儿我们用的时候并没有这么复杂啊,并没有这么复杂,然后再加一个杠点HTML,哎,这个链接题去走。有同学老师,那你这玩意儿呢,写完之后就能把当前页面的这些链接提取出来吗?我们打印一下link看看啊走,好像有一个对象在,对象没看着有啥内容对吧?那我告诉各位咋看哈,Link点1STRICT t_links,然后里边写谁呢?我们的response,大家来看这里边的链接,我们是不是全都拿到了231直到13呢?
08:07
对吧,各位,这就是我们说的是啥呢?链接提取器。啊,练习题我能做到的,先让大家感受一下,一会儿我们写的代码并没有这么复杂啊,并没有这么复杂,让大家感受一下啥,这里边儿我们有个啥呀?有一个链接提取器,它能提取什么,能够提取当前页面中所有我们符合我们要求的这个链接,大家能理解我的意思吧。OK吧喂,所以说在这儿啊,一定要注意啊,我们使用啥呢?使用这个正则用的是比较多的啊,用的是比较多的,当然呢,你也可以使用啥呀,使用什么其他的叉啊,它下边的A呀,这些属性啊,Div下边的这个东西都可以啊,我们来试试吧,来试试,接下来我们就用第二个谁呢?用这个restrict叉pass,用它使用正则的方式来提取这个链接,咋提取看啊同学们。
09:04
我先把这个还是打开啊,放在侧边写一个link啊一等于啥呢?还是link link。TC to1,然后在里边我们写的参这个参数条叫strict。对吧,Restrict,然后下划线叉pass加个S,千万注意啊,要加个S等于啥呢?还是R开头。啊,在里边我们来写一个叉帕语法啊,差帕语法,那这个差帕语法我们写的是谁呀?看同学们在这里边我们是不是有个配置四啊。对吧?你这里边爱写啥配S,呃,他们的上一级不就是它吗?那么现在我写上谁呀?杠杠,Div div之后,同学们这里边我该写啥,是不是写上at class等于啥?Pages看到了不?那按理来讲啊,我们接下来应该写谁了?写A了吧,然后再写啥呀?艾特h ref吧。
10:16
明白吧,各位,这步我们它的一个路径走好,我再使用一下谁呀,我等下切换一下啊。在这儿。我再写一下,假如说这个叫做link.e_links对吧,你上一把不提取这些链接吗?我们看response可不可以啊走。可不可以,各位是不是也提取出来了,也没有问题啊,但是这里边儿好像写着就没有我感觉上边那么方便都可以啊,你这你咋写都行,当然我们还可以用啥呢,用CSS啊对吧,CSS咋写在这看同学们。诶叫restrict CSS,这也可以,但是我们不推荐这种写法啊,不推荐这种写法,大家回头可以练一练啊,这种写法我们极为不推荐啊,极为不推荐。
11:08
好,同学们,这就是我们这个链接提取,也就是career spider一个基本使用啊,我先把这个视频暂停一下。
我来说两句