00:00
OK,同学们,那么接下来我们要完成啥呢?我们要完成这个东西叫多页数据的下载。啥叫多页数据的下载呢,对吧,你现在你只能下载第一页的数据啊,这来看啊,第一页数一共60条。对吧,那我能不能把100页的数据全都下载下来呢?我认为应该没问题吧,对吧?各位,但是我现在想一个事儿哈,我想问一下大家,就是你下载100页数据,每一页下载的数据它一样不一样,就是每一页下载数据的这个业务逻辑它一样不一样。他肯定是一样的吧,各位,所以说现在我们就说了,你现在这里边儿的这段代码,我们是不需要改的,对吧,我们是不需要改的,我们只需要改啥。就是你在这儿把第二页的请求再执行一遍,是不是就可以了。
01:02
对吧,你再把第二页第三页,第四页,第五页所有的页码,所有的页码再执行一遍,每一个页码哈,再执行一遍这个pass,那这事是不是就成了,同学们你同意不同意。对吧,因为每一啊,你要知道这写一小注释啊,省得大家以后忘,你要清晰的是每一页的爬取的业务逻辑全都是一样的,明白吧,各位每页爬取的业务逻辑全都是一样的。所以说在这儿呢,我们只需要再次,所以我们只需要将。页码。将执行的那个页的请求。再次调用谁pass方法就可以了,明白不?喂,所以这里面我们应该怎么去做呢?在做之前同学们你先别着急写,因为你现在写肯定错呀,为啥?你应该观察观察这个页码的变化,就第二页的页码再次执行pass没毛病吧,因为第一页已经执行完了呀。
02:23
所以这里边儿我们要干啥呢。啊,同学们,我要找下页走。这是第二页的啊,这是第二页的,我们来看一下吧,是不是第二页。好,试点也没问题吧,我右键检查一下。好,再次刷新它在network这刷新它点击第一个诶preview。稍等。嗯,不如用。好,大家来看这里边儿应该跟之前的是一样的数据啊,应该跟之前是一样的数据,我们先定位一下吧,好吧,定位的它。
03:06
好,大家看是不是又是一顿Li呀,用什么date没问题吧,各位,所以说我们猜到了啥?这就是你第二页的一个请求哪去了?刷新一下。刷新一下。这就是第二页的请求,我把这还拿过来。第二页,好,同学们,我再来,再找第三页的请求。那第三页下一页。好,右键检查。刷新。再找。再刷新。把这个先清空一下吧,清空一下,因为我这个lo了哈,它每次都有记忆来刷新,好,这是第三页。
04:01
啊,第三页好,我再来粘贴一下,大家看它们有没有什么不同的地方,后边的全一样,前边的全一样,就中间的谁二就是二,三就是三,那如果是第四页呢。我在往下滑。如果他要是第四页,你猜我们应该是啥?走。好,就是它吧,来把它复制一下来,在这我们再次粘贴它,来观察这个请求地址它的一个变化,同学们,你看是不是只有谁呀,只有他们不一样啊。对不对,所以说在前边应该到PG,然后拼一个页码,再拼上它就是啥呀,就是它的一个地址了吧。没问题吧,各位,所以说那这种东西我们应该咋办呢?首先注意啊,因为作用欲的问题啊,因为作用欲的问题,我们应该先干啥呢?在这定一个base_URL你否则每次都初始化呀,对吧,等于啥呢?等于一个假如说这了复制一下啊,一直到谁呀,是不是到PG呀。
05:20
啊,没有p gone啊,来看看这里边p gone行不行,有同学老师你这个p gone,我直接p gone到。我们发现咋的。嗯,可不可以,可不可以p gone也行吧,但是同学们注意啊,因为你这起始UI已经写这了,你写p gone也行,写写其他的也可以啊,都行的,没问题的啊。啊PG,那么这个完事之后我们要做什么呀?同学们我们要做什么呀,我们是不是得给它变成二页发请求啊,还有个页码对不对,所以在这呢,我们写一个叫配置等于一,为啥要配置等于一呢?同学们,我们马上来写这个具体的业务逻辑看啊说如果。
06:09
你的这个啥配置要小于100了,你说最大不就100页嘛,是吧,你的配置啊,先加个一。是等于啥呢?等于这个配置加上一个一,为啥呀,因为你要变成第二页了嘛,因为之前的URL第一页不已经爬完了吗?所以URL等于这个谁base URL去加上一个谁呀,是不是配置啊,但是同学们你要注意这个配置它是一个整形,一个整形能加一个综算吗?不行,不行的话,我必须得干什么,强制类型转换吧,再加上谁同学们我是不是要加它呀,加这个杠那个呀,CP1直到谁呀HM。
07:01
对吧,各位,那这个请求路径就有了,所以说接下来难点在于怎么去调用啥呀,去调用pass方法,大家注意啊,这个调用咱们暂时没学过,所以说呢,我们接下来讲完之后大家就要了解了。叫yield,然后SC点什么request,这个就是啥,它的get请求啊,就是就是script的get请求,千万注意啊,它就是它的get请求,OK同学们,那这个钙的请求里边都可以跟啥呢?第一个URL等于R,就你要执行的是哪个地址,第二个。啊,第二个叫call back back就是你要执行的哪一个函数,我们叫pass,但是同学们有一个问题,这个pass不允许加员工号。
08:07
啊,注意URL就是就是啥,就是请求地址,然后call back。是你要执行的那个函数,然后注意不需要加,加啥呢?不需要加圆号,千万注意啊,不允许加圆号,那么这里边我们还可以了啊,还有一个小问题,你需要注意的是,你这个拉等曼斯现在是不是只能允许一页啊。对不对,各位是不是只能允许一页啊,那你这肯定是不行,我第二页请求不在允许范围内,那可以吗?是不可以啊,所以在这啊一基本上我们会把谁呢?把这协议删掉,把后边这个呀也给它删掉就可以了啊,注意啊,注意如果是多页下载的话,那么必须要调整的是allows的范围的范围啊,一般情况下只写域名啊,只写域名就写他就完事了,那同学们接下来啊,我把杰森删掉。
09:30
删掉,我把它删掉。我们都知道一页有多少条,一共一页60条,对吧,各位我们多下载一会儿看一下啊。看可不可以走?嗯,好看报没报错,嗯,报了一个错误是吧?谁呀,哎呀叫no such什么啊,No such feel,我把books是不是都删掉了呀?Books是,是不是得留着它也不看不看啊,咱们要保证逻辑的完整,啥也不看,这个不死咱得留着啊,不死你没有这个文件夹,你往哪下呀,是不是好?同学们,那么接下来就是见证奇迹的时刻,走你。
10:13
所以说这块的基本的逻辑我们已经全部都实现了,同学们啊,全部都是,你将来想下网页中什么样的数据,多少页的数据都可以了啊。好,这已经估计是已经超过一页了,对吧?啊,估计已经超过一页了,行,我们先把它简单的暂停下来,把它简单暂停下来,太多了啊太多了,按CTRLCTRLZ暂停啊CTRLZ暂停,好我们来看一下这个杰森。CTRL2加L,你看同学们现在已经下载多少了?已经下载876条了吧,是不是要比之前要多很多吧?我们看一下图片。来看这个图片是不是基本上已经多到肯定多过60条了呀,哎,所以这个是不是都下载好了池也对不对,OK啊同学们以上呢,我把这个先把这个图片给大家删除一下,原因是因为将来给大家传代码的时候,你们下载代码的时候可能会很大,所以我把它删掉。
11:21
好,OK,同学们,我把视频暂停一下。
我来说两句