00:00
好,同学们,那么接下来呀,给大家讲一个调试工具啊,为啥讲调试工具呢?这个工具又是啥呢?对吧?我们得先聊聊,聊完之后呢,我们再去讲解这个调试工具,首先呢,跟大家说一下,我们要讲的叫SC的一个shell工具啊she,那么什么是script shell呢?我们来看一下,它是一个script的一个终端啊,是一个终端,啥叫终端?咱们同学好像有点不是很理解啊,它是一个交互终端,看一下啊它的官网介绍,供您在未启动spider的情况下尝试啊,调试您的代码啥意思呢?大家刚才可能发现了哈。我每一次运行是不是都得通过我们的这个指令来运行啊。对吧,各位,每一次都得通过我们的指令来进行,假如说我调整了我们spider那个文件,那你是不是也得执行一下spider,然后加上爬虫文件的名字。
01:01
对吧,诶就比较麻烦,所以说呢,这个东西的其本意是用来测试提取数据代码的,不过您可以将为将其视为正常的Python终端,在上边写任何的Python代码也没有问题啊,也没有问题,那么该终端是用来测试叉pass和CSS表达式的,查看他们工作方式以及爬取的网页中的提取数据。在编写您的爬虫文件时,该终端提供了交互性测试您表达式代码的功能。那最后这句话非常重要啊。他免去了每次修改后运行spider的麻烦,我就不运行了,它直接就可以干啥呀,做展示,做做这个输出,一旦熟悉了这个SCP终端后,您会发现其在开发和调试爬虫时发挥了巨大的作用啊,巨大作用,但是一般情况下呢,我们这个借助于啥呀?借助一个IPA森。
02:04
啊,Ipad如果你要不借助于ipayon的话,你的页面呃就很丑,那当然呢,我们在这个Python基础的时候也给大家讲解了,安装ipad吧,对吧,各位应该是在第三第四个视频左右是吧?好,那同学们,那接下来呀,我们要干啥呀,我们是不是就要使用一下这个sc shell了,它咋用呢?怎么去用呢?这个我们得知道,在哪个环境下用呢,我们也得知,要知道首先我来在这。这里边啊,我们先进入一下是不是有个ipad来着,如果不进入它的话,就是比较丑的一个页面哈,OK。那我这这个我们这个东西咋用呢?同学们,那我们这个东西咋用呢?直接在这输入sc shell,那你现在要调试哪个网页啊,假如说我要小调百度3W点百度点com,好同学们他报了一个错误,报啥错误了,这里边是不是什么都没给我们呢。
03:04
对吧,那我再来。加个啥呢?有同学老师你加个HTTP吧,大家别着急啊,别着急,HTTP冒号斜线3W点百度点上走,诶还不错,那有同学就说了,老师啊,你这个也不对呀。你写的这几个也进不去呀,那是因为啥呢。对吧,为什么我们没有进入到,还直接给你报错了呢。是吧,那同学们注意啊,这里边我们不这么去用,我们咋用呢?很多同学最开始接触sc shell的话都这么去写的哈,但其实不对,我看直接从那要写入我啊super。啊,然后加空格啊,这样加上3W点百度点。com。诶,你发现我们跟刚才是不是不一样了呀,是不是各位很多同学在网上看一些文档是先进入IPY,再去里边输入这些东西,或者很多同学也是先进入Python。
04:12
然后在里边写上scriptp shell,加上3W点百度点,Com,我告诉各位啊,这都不对啊,你没有必要去进入到Python环境,或者进入到这个I Python的环境再去执行C,没必要,也不是那么干的,他也做不了,而我们是咋做的,我们是直接在我们的这个终端中直接输入SCSHE,然后加上这样一个地址,哪去了,在这。那你记住啊,同学们,如果你安装过了ipayon,那你要注意我直接可以干啥呀,直接可以进入到ipayon的这个编译器,那么现在呢,我在这儿创建一个文件,来说明一下这几个问题。
05:00
那写上。那094,然后来写上上硅谷爬虫给大家写几个小注释啊,然后这是SC,然后是sc shell,嗯,好,第一个要注意啊,进入到啊shell的终端直接在哪呢?直接在你的window的终端中输入script shell,然后加上域名就可以啊,就可以,然后如果想。看到一些高亮或者自动补全。那么可以安装I Python,安装ipaython,我们在第三个视频,第四个视频我们就看到了,咋安呢?是不是PA install啊,In install I Python就可以了,明白了各位,哎,这样就行了,我们有高量输出和自动补全等其他特性啊,好,那么我们怎么进来的呢?是不是squarep she?
06:21
然后加上3W点百度点com,这种方式是可以的啊,是可以的,当然不同的操作系统进入的都不太一样哈,你要么加HTTP,要么加引号,这都可以,问题不大,那你进入到这之后有啥用啊,同学们,你看这里它直接有个response,看到了吗?而这个response我是可以直接用的,诶咋直接用呢?同学们你看啊,我记得我们的response里,你看可以自动补全啊,如果在ipad中response,你看是不是给你提示了你用哪个呀?诶,当然这个好像丑一点。
07:00
啊,直接来response。它提示好像不是特别好啊,Response点大家注意啊保底看哎是不是给你让选择呀,去保底好在这里边直接来一下啊,Response点二保底可以直接来啊,直接来走,但是你看是不是一个二进制的啥呀啊一个二进制的这样一个页面源码啊,还有啥来着response.test对吧,这就是不是我们页面的这个啥这个数据啊,是不是直接可以有啊哎组算形式还有啥response.ur。啊,是不是在这了,Rebo UR还有啥response.stay statuss啥呀,是不是状态码看到了吗?各位哎,可以直接用你不你不要再去干啥了,我修改一下我就干啥,我就做一些其他的不需要了啊,直接就可以在这边去去这个使用了啊直接可以在这边使用了,那现在我们要干啥?同学们,我把百度这打开百度网页。
08:12
他我来定位一下,百度一下,我要他。对吧?那是啥来着?是不是Su啊?然后我要一下里边的Y流值,同学们还记得叉pass咋写吗?还记得吗?Response点叉pass在里边写上,写上杠杠是吧?是不是input input里边的啥ID等于谁来着?Su我要里边的什么?找到这对象要里边的Y6值吧,对吧,Y6值,但是别着急,同学们,这个叉pass它返回的是啥呀,咱看一眼它是不是返回的是一个列表啊,那我如何提取列表中的内容来着。啊,同学们,我在这给它一个值啊,给它一个值,假如说A等于它。
09:04
啊,A等于它来打一下A是吧,A在可以提取吧,提取列表中的这个第一个元素的数据,你看是不是就可以了,叫restrict,然后这个restrict,然后first它是干啥?获取这个列表中,它是不是后边还可有很多数据啊,而first呢,是获取里边第一个数据中的date值。这个就是啥?这就是个strict first作用啊,First作用好,同学们,这个简单一些吧,就是将呀,如果说它主要的作用是啥呢?说将来呀,如果你要有很复杂的这样一个爬虫的业务的话,那么你是可以直接使用sc cell去操作的。啊,去操作的,那有同学说老师啊。那我能不能用BS语法啊,可以啊,但一般我们使使用scriptp,我们不建议大家去用啥呀,用这个BS的这个语法,为啥它特别复杂,给大家来看一下啊,它叫CSS,那么这个CSS如果你想要里边的这个Y流值,你咋要啊,看这种写法非常的怪,所以呢,不推荐大家使用CSS,一般情况下我们做企业级研发的时候都使用的是叉八啊,写个井号Su对吧,然后写上啥两个冒号。
10:28
啊,然后写上at tr是不是属性啊,At t tr啊,然后在里边我们写个啥,哎,写一个value,要里边的value值,那这个的结果看它是不是又返回了一个S列表就比较麻烦,就写这种写个冒号什么的就比较麻烦啊A等于它。然后再写啥呢?A点1STRICT,小写first。是不是拿到了呀,A点一这的first是不是拿到了过OK吧,哎,所以说在这里边大家注意啊,我们非常不再给大家看一眼啊。
11:05
好他再来A就他啊拿到了吧,非常不建议各位同学干啥使用CSS语法啊,非常非常不建议大家就是理解一下,知道它能做就行,但实际上我们不太去用哈,我们不太去用,好同学们以上呢就是sc shell的一个简单讲解吧,大家如果以后呃,你的代码非常多的话,你确实可以用它去调试的,但是如果你的业务能力比较强对吧,然后你改错的这个能力比较强,那这个块cel它用的用处倒不是特别大,除非啥呢,你新手对吧,你开始爬数据的时候很多,呃,这个解析的时候有问题啊,数据获取不到啊对吧,你可以用scb cell做一个调试啊好同学们以上呢就是我们对cell的一个讲解,那我把视频暂停一下。
我来说两句