00:00
好,欢迎各位小伙伴来到徐学,呃,上一节课呢,给大家去讲解了关于我们web当中的这个cookie和筛的一个原理啊,以及大概呃,大家呢,会对它有一个认识和了解,那么接下来呢,我们去看一下在我们这个Python的爬虫当中,如何去使用我们的cookie来获取一些我们小的数据,那么我们打开我们这个我们当前的这个续旋地的网站,那么在这里呢,我先去点击登录啊,那么点击这位登录,登录之后呢,我去跳转到我当前的一个,呃,应该是账户中心啊中心这个位置,好,那么请注意哈,我想要的是这个页面中的数据,要什么呢?就要这个东西,就要这个订单号就可以了啊,我们要这个数据,那么正常来讲啊,它是一个get请求,对吧,只要把只要能请求过来,然后呢就能得到这个数据,是不是很简单对吧?啊好,那么按照我们原来的提现法呢,就是把这个地址复制过来,然后呢,发一个请求就可以了,好这样我们来用代码实现一下,先看看能不能实现。我们去把这个这个的一个请求,然后把这个给复制出来。C,然后这里一个文。
01:02
嗯,然后呢,写第四个对吧?嗯,诶我的第四个啊,我们这个文件呢,主要是讲在这个在中设置中设置,设置设置好,那么以后我们才代码呢,给粘过来,我们来看一下,然后地址呢,我们对应的给它换掉,地址呢,就换成我们刚才啊要请求的这个页面地址复制。这来他都先个。啊好吧好吧,先这样吧,啊又又又少东西了,对吧,又少东西了,真真真是考验好了这样,那么在这个位置我们定义好了请求,定义好了请求方式,然后呢,接下来呢,我们发一个请求,来看一下这个页面内容,来点击请求。大家看一下是200对不对,是200没有问题,好,那么请问我们接下来是不是应该能得到我们刚才想的内容呢?来测试一下我们在这里呢,呃,Print或者这样吧,我们把这个内容呢,写入到我们的文件当中去啊,写入到文件当中来把这个内容。
02:12
嗯,来C复制一下,然后呢,放到这个下面来,好上面获取码,然后接下来成功以后呢,把它写入到我们的文件里边来。点击运行好,运行之后我们就产生这个文件,打开看一下啊,打开看一下啊,正常来讲这个页面里面是不是应该有我们刚才的什么内容啊,有这个啊订单号对不对,或者说默认机话,这个东西是不是应该有好CTRLC复制一下到我们的P里边来进行一个搜索,CTRL加F。好,然后把那个内容粘进来,大家看一下是能收到吗?根本就没有收到啊,没有收到这个页面里面没有刚才我们想要的那个信息啊,没有这个内容,而这个页面是什么呢?啊,如果没有错的话,这个页面应该是一个登录的页面啊,不然的话我们去搜一下loading。看一下啊。Roin看到吗?诶再找啊再找。
03:03
啊,看到看到登录和注册这个按钮了吗?啊,登录和注册这个按钮,也就是说他当前给我们的是什么,是一个登录的啊,登录和注册的这么一个按钮里面啊,那么这很明显它不是我们想要的,也没有得到我们想要的信息,对不对,那么这个时候我们应该怎么办呢?好,那我们来分析一下,到底是哪出了问题,现在是这样的,我在浏览器里面是由于登录了之后再访问这个页面,所以得到这样的一个信息,对不对啊,他给我访问这源代码里边有这个信息,但是我这个时候呢,用我们的Python啊,Python代码来发请求,并没有携带对应的库费信息,所以就没有拿到信息,那就等于是你在这里请求的时候没有亏,那你就当然就请不到,对不对,所以怎么解决问题呢?啊呃,有一个非常简单,但是呢啊非常简单有效,但它并不一定特别好的方法,就是你来看一下你当前这个网站啊,点击我们的呃检查,然后打开network,我们刷新一下。看一下在浏览器里边发请求的时候,你的请求图当中都携带了哪些东西来requests,就你的请求动信息来,大家注意看这里面是不是有一堆的cookie。
04:00
对不对,好,有一堆的cookie,我们把这个cookie信息给他带过来,来复制一下。复制啊,然后呢,放到我们的代码当中啊,放到我们的里边啊,就设置到我们的里边,然后在这里去粘贴啊,然后后面呢,加一个呃引号啊,给它补一下啊,补一下位置好,然后前面这个位置呢,我们再来把这里补上我们的一个单引号啊,然后呢,这个。呃,Use cookie,然后是是这个吗?嗯。中文英文我们来看一看,诶还有哪里有问题啊。再往后走一走,看看我们这个代码在后面有没有其他的问题。啊,我这个。为我没有鼠标。我稍微错。
05:08
好了,那我们来看一下啊,来这一次啊,这一次我们已经携带了我们当前的这个cookie信息,然后再一次发请求,把这个内容呢,写到我们的test里边去,来我们自己做一个测试来运行。好200OK,并且我们把内容写进去,然后把这里打开,打开之后呢,呃,如果在这个页面当中啊,在返回的这个页面当中,能够找到这一个啊这样的一个字符串,那是不是证明我们的请求成功了,对吧?来CTRL加F搜索。搜索有没有找到默认计划订单号,那这个信息是不是都齐了对吧?因此当前这位等啊,我们就呃通过一个非常,嗯,怎么说呢,一个比较笨的办法,然后得到了这个数据啊得到了数据,因为这个时候他要求携带酷给你没有酷给的话,他没也就说没有办法确认你是哪个用户,因此他认为你没有登录,没有登录的话,那就给你跳到登录也行了,因此现在我们的解决方案是什么?只要携带酷IE可以了,好,那么这个是我们的一个简单实验啊,告诉大家酷IE的一个重要性,以及我们呃,用一个简单的方法如何去携带我们的对应库理信息,当然目前他还不是最好的解决方案,好在下节课当中,我们给大家去讲解一下我们如何让我们的Python代码自己来记住库虑,而不是我们主动的啊去搜索这个啊,找到一个固定信息才行来啊,那样的话会更有效啊。好,各位小伙伴,下课之后大家做一个练习吧。
我来说两句