00:00
OK,同学们,那么接下来啊,我们要讲一下啥呢?讲一下URL lib里边的cookie登录,那啥叫cookie登录呢?同学们看啊,假如说在这儿啊,我们打开一下微博啊,微博这个网站。那么微博这里边呢,我先把这个之前登录过的一个东西给它退出去啊,那么同学们你想想啊,如果说啊,我们将来呀,要采集一些数据,但是呢,这些数据啊,必须是你登录之后才干啥呢,才可以看到的数据,那么这种问题我们应该怎么做数据采集呢?对吧?诶,这是我们接下来要做的一个需求,OK啊同学们,那我先这样,我先来创建一个新的文件,然后呢,描述一下我们这个诉求,然后紧接着我们再来做一个实现啊用来啥呢?用这个微博的cookie登录啊酷IE登录,好同学们我们先来描述一下啊,假如它适用的场景啊,试用的场景适用啊适用的场景,那么适用的场景是在数据采集的时候啊,需要啥呢?绕过。
01:16
的登录,然后进入到啊,然后进入到某个页面,诶,我们把这个呢,就是需要使用啥呢,叫做cookie登录啊,这试用到场景,那么现在啊同学们我们来看一下啊,假如说现在我想要你微博个人账号的那个个人信息页面详细页面,那我们来看一下,我们来登录一下。啊,在这儿我们来输入啥呢?我们的密码和我们的用户名,当然了,如果是你的话,你就随自己随便打哈,我这是我的用户名密码密码啊,然后登录上,然后加上写入我的密码来走。好,我们想干啥呢?这个还有现在有一个手机验证哈,现在的这个,呃,所有的像QQ空间呢,像微博呀,像其他的你们公司的这种网站呢,它其实都是有这种验证信息的,那无论是验证码还是我们的手机验证啊,都是有的,那后续呢,我们也会有一些关于验证码识别,验证码破解的这么一个案例的练习,那同学们我们来看一下啊,现在我要啥呀,我要这个详细资料啊,假如说这是我的详细资料,那么这个页面如果我们正常访问的话,你可以访问到吗?
02:39
对吧,我们得试试来,同学们,我们现在来访问一下他。假如说在这,我先导入一下UR li.request啊,在这呢有个URL就是它对吧,我想要这个页面,那同学老师呢,那我给他一个heads吧,啊,我看UA它能不能让我进,同学们你想呢,就是如果说在这儿啊,我打开另一个浏览器啊,因为这个浏览器里边有一些酷开设置啊,我随便打开个浏览器。
03:08
啊,这个打开这个IE吧,是吧,来打开它,打开它之后走,你发现它是不是一定会让你登录啊,对吧,各位因为啥呀,因为你是没有登录过的。明白吧,所以说在这儿如果我们要访问他的时候,看哈海德,给他个UA吧,来右键检查一下。然后点击network,我们来刷新来抓到这个接口,同学们看啊,我来抓到这个接口,这个接口是不是它呢,我们得看一看previ没问题吧,各位,哎,所以说现在呢,在这儿我给他一个UA。来给他个UI就给他个UI,别的不给啊,一会再告诉你为什么。来给它,呃,加上一个引号,给它也加上一个引号,这不是字典嘛,对吧?嗯,好,同学们,那此时我接下来做一个请求对象的定制,等UR力吧,点request,点大的request,嗯,然后在里边呢,我们传递一下这个ul head等于head OK了,那么紧接着我们是不是得模拟浏览器向服务器发送请求了呀,对吧,Response等于UR力点request.you are open里边是不是传一个request对吧?那现在你发送完之后,你是不是可以获取一下啥呀,它的内容啊对吧?各位点read.de扣de,然后在里边写上U条杠八,哎,这个是写上一个小注式啊,它叫请求对象的定制,那这是啥呀?这是模拟浏览器,模拟浏览器向啊服务器发送请求。
04:50
那第三一个呢,是啥?获取响应的数据没毛病吧?各位,那么这个数据完事之后我干啥?我将数据啊,将数据保存到本地,明白吗?各位,就是我将这个页面呀,要放到本地一下,我看看它可不可以那么写上with open,然后给它起个名叫什么呢?叫微博点击ma OK吗?各位啊,这名当然无所谓哈,就是为了让我们看到更加清晰一点,我就给它写它了,IFPLP.right来将这content干啥呀?给它写在本地,那同学们我们现在来运行一下它走。
05:36
哎,发现呢,他现在报了一个错误,报啥错呢,大家你得知道这个,难道说这个编码不对,为啥编码不对呢。难道它的这个页面的编码它不是UTL杠八吗?这个是我们得分析一下啊,那咋分析啊,在这右键检查页面的源代码,我发现呢,它是UTF杠八对吧?那为啥不好使呢。
06:03
那为啥不好使呢?我告诉各位,这是因为啥?这是很多反扒手段做的一个操作,说个人信息页面是utf杠八,但是还报错了啥编码错误,因为什么呢?因为并没有进入到啥个人信息页面,而是跳转到了登录页面,注意啊,很多网站都是这么做的啊,那么登录页面。登录页面不是啥呀,不是utf杠八,所以报错,同学们你能理解我意思吗?是不是就你运行的时候,因为你没有登录,所以跳转到了登录页面,而登录页面不是啥呀,ETF-8OK吧,各位,所以说那现在我们要做的是啥呀?有的老师那我就看看呗,我看一下这个微博它的登录页面是啥呗,来找登录页面。
07:11
然后现在呢,我们来右键检查一下源代码,咱们看同学们它是什么,它是不是GB2312啊,对吧,因为你没有登录进去啊,所以在这才报错了,那同学老师,那我给它改成GB2312行不行,记住啊同学们,这是它一个小小的反扒手段,我们再来运行一下,你发现他不会报编码错误了,对吗?诶不对,他还爆了是吧?那为啥此时又爆了呢?那我们就得去聊聊了,难道你这个页面不是GB2312吗?对吧,那我们就得看别的了,是因为啥呢?它的网络源码中,我们来看一下,来打印它content对吧,各位我来打印一下呗,看你到底是什么编码,然后我再根据这编码来吧,但是我告诉同学们啊,在这儿并不是因为它的问题,而是因为谁呢?嗯,同学们,我当晚上注释的时候,你是不是一下就发现了,但现咱也不着急啊,我教大家来排错,将来这种反扒销手段也是有的,走嗯,来他不看是不是不是因为这儿啊各位,而是因为在这里的一个错误,大家注意啊,GB23。
08:27
幺二,明白吧,你看因为你的没登录成功,所以说我们就衍生了它编码的问题,我们再来运行一下。走,你好,同学们是不是不报错了,那我看一下这个微博,它是不是登录页面呢。看打开看这个title是不是这样的,所以说在此时大家注意啊,你就进不来了,因为啥呢?你一直在登录页面去转,一直在登录页面去转,那同学们这因为网络的问题啊,大家注意,你看抬头是不是可以了,那这个时候我们就得去想啊,你看这个不是手机号邮箱什么的吗?然后换一张什么什么动态码什么等等等等,那这就是啥呀,这是他登录页面,那有同学问老师,那我怎么来绕过他这个登录来进入到主页面,难道就没有办法了吗?
09:23
对吧,有我告诉各位哈,这里边儿我记得我之前跟大家说过啊,什么情况下访问不成功啊,访问不成功来着,是不是就因为你请求投的信息不够,所以啥访问不成功,这是我们大部分的情况下会遇到的一个问题吧,对吧,各位,所以说在这里边儿我们先干啥呀,这不有登录成功的吗?对吧,我来右键检查。在检查这呢,我们来刷新一下这个页面啊刷新。
10:03
好,我们来找到这个音符,这里边是不是有很多请求投的东西啊,在哪呢?在这儿啊叫request headers,这里边啊有很多很多的我们想要的这个参数,我们现在呀,把这个参数拿过来,我一会儿再告诉大家,这里边谁取了,取这个这个做了一个决定性的因素呢,我就给大家来讲,先别着急,我们来先试试啊,我把这打开。我们将这个编码的这个代码的格式给它修改,修改ctrl a ctrl h,然后呢,我们选择正则表达式,再选择第一个,再选择第一个,然后全部替换就OK了,好同学们,那现在呢,我把它剪切一下,给它放在哪呢?放在我们的请求头中,好放在请求头的时候呢,我们会遇到几个问题,我之前跟大家说过了,带啥带冒号的是不是全都不好使,包括一个encoding啊,各位对吧,各位,所以说在这里边我们现在就要访问它,但是大家先别着急,你访问的时候你要看一眼,看一眼什么呢?当前这个页面的编码格式是啥?
11:16
为啥呀,因为在这儿我是不是给他写了GB232 GB232是不是他的登录页面的编码。没问题吧,各位,那么这页面的编码格式是什么呢?我们现在来看是不是UTF杠八呀各位,所以在这呢,先别着急去写啊,UTF杠八。啊UTF杠八,那现在我们再来访问一下他看有没有进入到我们的啥主页面啊,我们的个人信息页面,我们已经不需要你的登录了,对不对,走好,那么同学们现在它并没有报错,我们就看一下呗,这个页面中它是不是我们想要的呢?来,走,大家看来没来呀。
12:02
没问题吧,各位,我没有登录啊,我没有写任何的关于我们的登录的用户名和密码的东西吧?那有同学问老师,这里边儿取决定性因素的是谁?我告诉各位啊,这里边儿它是cookie cookie中携带着啥呢?携带着你的登录信息啊,你的登录信息如果有了登录之后了,登录之后的cookie了,那么我们就可以携带着。携带着cookie进入到任何页面啊,进入到登陆之后的任何页面,就是cookie起了决定性因素,但是我跟各位同学讲,很多网站并不能说啥呢,我有cookie,我全能做。这不是一样的啊,包括这里边儿它还有一个验证啥呢,叫做referee,那同学们我再把它注释一下,你看可不可以来我们右键运行一下走。
13:07
嗯,好,我们来看一下这个页面哈。好看这里边儿他验证没验证走。我们发现它也可以,对不对,但是我得跟各位同学去解释一下这个referee它的作用。啊,并不是只有cookie能做限制啊,这个referee它是做防盗链的。啥是方向链,它判断当前路径是不是由上一个路径进来的啊进来的也就是说判断的是不是通过这个链接的下一个链接才进来的,明白吗?如果你的当前的音符链接并不是通过这个网站进来的,那我咋的就报错了,明白吗?各位哎,所以说这个一般做图片防盗链,一般情况下是做图片的防盗链,啥叫图片的防盗链呢?因为我们一般是不是都会下载图片呢?但是这个图片如果你要没登录。
14:14
就是它啊,你不是通过这个页面来的,那咋的我就不让你下载,明白吧,各位这就的一个作用,好大家注意啊,有这网站它是这么干的哈,例如微博,他时而验证referee,时而不验证,这是非常重要的啊,但是呢,一般情况下我们给他加上啊结合cookie那就OK了啊,那就OK了,所以说大家注意啊,在这里边你可以回去尝试一下啥呢?尝试一下你的QQ空间,你的公司的官网等等一系列的东西,基本上你使用cookie就完全的可以进去了啊,完全可以进去,当然呢,有人说老师那以后我用cookie不就完了吗?不是的哈,我们将来呀,他还有一种反扒手段叫动态cookie,那么我们会在request的时候给大家再次做一个系统的讲解啊,包括你遇到啥呀,你遇到这个验证码啦,等等等一系列的啊都可以,但是这个这个cookie呢,我们能解决市场上60%~70%的问题,你都可以通过cookie来做。
15:15
啊,OK,同学们,以上就是我们ul的cookie登录。
我来说两句