00:00
哈喽,各位小伙伴,欢迎大家回到学新原点啊,那么在前面的课程当中呢,我们也做了一些啊练习和实战啊,那么接下来呢,我们再看一下关于我们request库中还有哪些内容啊,其中就是我们这个request过中有一个非常好用的东西,就是他可以使用代理啊,代理IP,那我们先来了解一下什么叫代理啊,是这样的,就是呃,你去我在网络这个爬虫开发的过程当中呢,会遇到一些这样的问题,就是呃,你如果频繁请求一网站,他们会尽量你的IP。会禁用你的IP,那么这个就是说你不但不但让你发请求了,对你频繁刷新一下请求,比如说get up这个网站,你不用卡中,你就是那个叫呃,使用咱们的那个呃,正常的那个网络IP,然后你去访问的话,多刷新几次,就是时间比较间隔比较短的话,然后都有可能会,就是他会检查你的IP异常,然后请求让你等等多长时间,比如说15分钟或多长时间之后再发请求,有的IP封的更久,对吧,比如说那个呃,我记得之前排位网站叫做。呃,是一个招聘网站,一个招聘网站,那个招聘网站的话,就是它基本上你的罚,呃爬虫的这个请求频率如果过高,然后呢,请求次数如果太频繁,在某一段时间内啊,达到一个高峰的话,他直接封到你的IP是24小时,对吧?如24小时之内,你这个也就意味着你无法再向他的一个请求例子发送请求了,实际上就是我们来聊一下,为什么会出现这种情况,因为什么呢?因为首先你如果频繁的向一个网站发起的话,你一定会影响别人的服务器的正常运行,这是一定的啊对,而且呢,就是。
01:16
关于我们爬虫这个东西呢,呃,非常有争议的另外一点东西,就是说在爬虫的过程当中呢,你去爬别的内容,这个东西到底对还是不对是吧?所以呢,希望各位小伙伴呢,能对这个内容呢多做一些了解,如果说你只是为了学习啊,那这个我估计别人不会怪罪你对吧?但是如果你是为了比如说呃,为了商呃公司的这个商业商业利益,对吧?然后呢,去扒取大量扒取别人的数据,而别人呢,去做了很多的应对措施,依然没有防助力,对不对,你觉得你很牛逼,好,我告诉你,你这个时候其实挺危险的啊,所以各位小伙伴呢,没事的时候呢也多啊,多翻翻这个法律相关的内容啊,网上流传的这么一句话叫做爬虫缺的好,监狱尽得早是吧,希望因为这个近两年的话,关于爬虫造成的这个,呃,互联网上的这个生态的混乱其实还是蛮严重啊,希望所以呢,希望各位小伙伴呢,能能够这个啊,对这个爬虫呢,有一个这个啊,对技术啊,有一个敬畏之心啊,对我们的这个生活啊好了呃,我们来看一下爬虫阶段中的这个叫啊代理P啊代理P。
02:08
大IP好,那我们来说一下,就是为什么什么是代IP,为什么需要这个东西啊,我们先来说一下这个,我们正常请求的时候情况下,会遇到这种情况,就是当频繁请求一个网站的时候,会会哎,当频繁频繁请求请求请求一个啊一个网站网站时啊,网站时IP啊,那个对方啊,对方会认为认为。认为啊,这个认为攻击攻击或者攻击或者啊,或者是什么啊,或者是这个盗取数据,盗取数据啊,这个就是他种啊,那么这个时候呢,他们选择的啊,这个简单直接有效的方案就是禁用IP,禁用IP禁用IP是反制的。反的啊,反制的有效手段,有效手段,好,那么这个时候啊,这个时候大家想想如何如何破解啊,如何破解这个问题啊,破解这个问题,这个问题啊好大家想一下如何破解问题,就是你频繁的发一个到请求网站里边的时候呢去呃,别人会认为遭受的一个攻击,或者要么就是你在爬虫盗取别人的数据,对吧,这个时候他们肯定会进入IP,就是他,嗯,比如说验证码各种手段都加了对不对,然后呢,呃,发现请求还是下不了,这个时候最简单的方式,如果在拼,就是判断你的请求速度在某一时间内达到多少次,直接就进到你的IP 24小时内啊或者多长视频内言也是不允许你啊发请求的,所以我再一次提醒各位小伙伴,你发送爬虫的请求不要频率过高过快,一定是这样的,就是不是说你你要慢一点,怕别人封你,而是你请请求过多会对别人的服务器造成一个非常大的压力啊,近一年来这种案件非常多啊,非常多,特别在咱们国内啊,所以希望各位小伙伴呢能够谨慎啊,我我从这个啊,从105年基本上开始带的学员,到现在的话,呃,带过了接近二十二三十个班,然后美。
03:47
班平均下来都是啊,五六十个学生这样的情况,那么其中大量的学员都在从事这个爬虫工作,对吧?近两年已经有好多的这个同学正在转行,就是跳到其他岗位去了,因为爬虫的第一个是啊,爬虫的这个繁殖手段越来越强,第二个呢,就是他们感受到了啊爬虫带来的危害性,就是说白了这个东西呢啊,从道德上来讲,就是这个东西我给你看,你拿走那没问题,但是如果这个东西说我可以给你看,但你不能拿走,那这个时候呢。
04:13
如果你还想强呃强行的到人家的网站就盘取到的数据,说白了如果他能抓到你的把柄,一告你一个准啊,所以希望各位小伙伴一定要谨慎啊好了,呃,这是题外话啊,那么接下来回到正题,我们来看一下啊,就是当频繁请求于网站时,对方人员攻击或盗取数据,那么进融IP是一个常用的反制手段,那么这个时候我们如何来破解的问题啊,其实最有效的方案啊就是推荐方案,推荐就是我正常来讲的推荐方案,推荐方案方案就是爬虫请求的频率啊频率啊降低啊就是降低降低爬虫请求的频率啊,然后呢,仅此而已啊,不要对别人的啊,就是不要对别人的别人的服务器啊服务器造成压力啊造成压力。压力啊,然后呢,不要破坏别人的这个啊数据好吧,啊,所以这是第一个推荐方案啊,第二个方案的话,就是今天我们的正体呢,就是使用代理IP,使用代理IP,但是我们来说一下代理IP是个怎么回事啊,就是大家知道在我们中国的话,你需要访问国外的某些网站的时候,不是国外的所有网站都封掉了啊啊就是你呃,需要谈一些国外的某些网站的时候,那么这个时候所有哈,我们中国的所有的IP流向国外的时候啊,请求都要经过一个东西叫做什么呢?长城防火墙对不对,长城防火墙啊,那么会向会代理啊会他其实也是一个代理,就是帮助我们向你的目标网站发起请求,然后得到数据再返给你,然后呢,在这个过程当中,长城防火墙他起到的一个作用是什么?就是看你是不是去上了一些不该看的网站啊,比如说你自己想哈啊,比如说一些网站是吧,能看到了不该看的东西啊,对啊,有小伙伴说,哎呀,这这个不能闹对吧,这个言论不自由,实际上是这样的,这个没世界上绝对就没有绝对的言论自由,包括美国崇尚自由,对吧,他们言论自由嘛,对吧,他们他们国家的黑人既王都被抓进去过是吧,所以说这个这个。
05:56
不要讨论这个问题,好吧啊,希望各位小伙伴能够理解就OK了,好吧,当然了,作为一个程序员,如果你翻不了墙,我觉得你也挺可耻的是吧?嗯,好吧,这个是我们题外话啊,就是希望大家告诉大家的是我们正常用的翻城工具,还有你通过这个长城防火墙去访问国外的网站,那都是使用了一个带雷劈,当然了,这个代理批和我们今天要讲的带雷批还有点区别啊,我们来看一下今天我们要讲的带雷劈,那这里呢,给大家简单准备课件,我们来看一下啊,首先来看一看他中的代理是什么东西哈,代理相当于一个连接客户端和远程服务器的一个中转站,当我们向服务器发送请求以后呢,代理服务器会先获取用户的一个请求,然后再把这个请求呢,交给远程服务器,也就是说你看。
06:30
呃,我们的用户发送请求以后,走到代理,代理向帮我们发送请求到服务器,服务器返回数据交给代理,代理再把数据返给我,也就是说中间有人跑腿。举个例子,你说我坐在办公室里,今天啊,今天这个,呃,这个想想喝,想想这个抽包烟是吧,然后结果没有了,那我叫了一个小伙伴,那有两种方案,要么你自己下去买,要么叫个小伙伴,然后帮你去买一下,对吧,这个时候如果你自己下买好,那这个东西你自己去对吧?啊就是我们原来情况下都干了好,那现在的话就是说你可以让谁呢?让一个小伙伴啊,你把钱给他,然后呢,说小伙伴你去帮我买,买这个叫什么啊,买包烟是吧?啊买包运回来好,那么这个小伙伴是不是你把请求发给这个小伙伴,小伙伴呢,拿着你的钱到商到商店和超市买了一包烟,对吧?买完烟回来之后,他拿到他手里了,他再回来给你,那么中间这个小伙伴是什么呢?就是我们这个在这个进程,这个过程当中的一个代理啊,就类似于一个代理啊啊呃,提到这个买烟,想起想起来一个笑话,就是比如说那个早期我们在学呃,在驾校考这个驾照的时候哈,遇到一个这样情况,这个驾校的在驾校的这个小伙伴呢,就是可能比较紧张哈,比较紧张,然后呢,教练呢,一直告诉他说这个嗯,不要不要紧张是吧,加油啊,然后呢,这个拍拍他的肩膀是吧,然后这个开车的小伙伴呢,说啊好的,谢谢教练,然后呢,这个教练又说了一句加油啊,然后呢,这个嗯,小伙伴又说啊,谢谢教练,我知道了一。
07:39
更会努力,一定会加油是吧?然后这个时候教练一啪一巴掌就上来了是吧?我他妈让你踩油门是不是啊,结果这个这哥们一惊是吧,油门一脚就踩到底给教练下来是吧?教练就赶紧喊刹车是吧?那然后呢,这个小伙伴呢,比较紧张,说怎么刹是吧?忘了都紧张的不行了,怎么刹车,然后呢,这个啊这个这个谁这个呃,我这个教练说用手刹用手刹是吧?拉手刹啊拉手刹的话,这个小伙伴怎么办呢?用手刹直接就打开他车门,跳下去之后用手拽着这个车,强行的让这个车停下来对不对啊,下来之后呢,这个教练吓了一跳啊,因为教练旁边有社保,吓了一跳是吧?然后拿了50块钱给那个开车的小伙伴说这个去给我买包中华,我,我去买包中华回来,我压压惊对不对?然后这个小伙伴拿过来钱的就问了一句。
08:19
呃,老师。牙膏也能压惊吗?啊,好了,这是一个非常好玩的一个段子啊,在早期听过的,好了,那么这个呃,就是刚才呃讲到这么一个,呃,有一个人帮你去跑腿的这样一个业务啊,其对一个代理啊好了,那么接下来我们看一下啊,为什么我们需要代理啊,我们看一下它的使用场景,当我们去访问的目标网站,根据这个IP的访问频度判断,如果超过正常频度,就会限制该IP,那么拒绝访问,这个时候就需要使用代理IP来伪装你的真实IP身份啊啊,那我们看一下啊,它的作用就是说你使用代理之后,远程服务器只能探测到代理服务器的IP地址,而不是上网者的真正IP,从而达到隐藏上网者IP地址的一个目的,保障了上网者的安全。但是这个时候要注意,代理他有分类啊,代理分为叫透明代理,普通匿名代理和高级代理啊,透明代理就是远程服务器,他知道你使用的代理啊,使用代理,举个例子,你你你们家那个做饭没有酱油了,你说让那个你你家小朋友然后去买酱油对不对,那超市的老板一定知道这个酱油绝对不是这个小孩子主动买的,他一定知道就是这个什么,就是那个家里让他来的,对不对,所以这个类似于我们的普通代理,就是说普通代理虽然使使用了代理IP发送到远程服务器,但是。
09:23
那对方其实是知道你真正的IP地址,就是因为他,你就等于明确告诉我就是一个代理IP啊,就这样一个情况啊,好,第二个匿名代理,匿名代理就说远程服务器知道你使用代理,但是他不知道你的真实IP,举个例子,你让一个非长得非常清清秀的,从来也不抽烟的妹子,然后到超市去买买烟买酒对不对,这个时候老板一般会猜测,哎呀,这个妹子估计就是两种情况下,要么她自己比较比较喜欢抽烟,会喝酒,要么就是她给她男朋友或者给谁买对不对,她知道她是给别人买,但是。他并不清楚,他并不清楚到底是给谁卖的,对不对,这叫做普通普通代理,也就是说我知道你用的代理我不知道,但是我不知道具体是谁用在使用这个代理啊,这叫普通的应聘代理啊,还有第三种叫做该高利代里啊高利代理就是隐藏了你的真实IP,同时访问对象也不知道你是否使用了代理,那么因此他的隐藏度是最高的啊,这是我们代理中的一个分类,好,那么接下来呢,我们来看一看啊代理如何去使用。
10:13
首先我们要使用代理的话,就是有各种各样的代理IP网站,比如说西施代理,跨代理,八九代理,豌代啊,豌豆代理,什么六六代理,蘑菇代理,什么熊猫代理,非非遗,非遗代理什么张大爷这个各种各样的啊,然后IP代理网站,然后这些网站里边呢,你都可以去查看,他有非常多的这个,呃,有非常多的这个代理,然后给你用,但是呢,通常情况下我们来告诉大家啊,这种代理就是就这么说吧,如果是免费的代理,你盘100个,其中90个,可能99个都是不太好用的,也就是说这个代理的稳定性很差,然后呢,可以你可以花钱,花钱的话,这些网站里边也都提供了这个各种花钱的服务啊,你想搜这些代理的话,你可以非常简单,就是百度点。com直接搜这个叫。直接搜一下这个叫代,这个叫这个叫代理IP来搜一下就可以了,来看一下各种各样的啊,专门告诉你他就是他从S代理对不对啊,各种各样的。
11:01
啊,国内高地免费代理对不对啊,快代理啊等等各种代理代理网站啊,啊你看知乎上还有问你说说代理IP哪家好,我告诉你哪一哪一家的IP都不一定,不一定保证100%好,而且就是说白了免费的都没有,都不太好用,你肯定要花钱对吧?然后呢,如果你觉得这个代理不好用,其实你自己可完全可以自己维护,创造一个代理词,代理IP词啊,然后呢,去滚动一下,就是这么说吧,你去拉一根网线过来,然后这根网线呢,你做一个,呃,通过技术的话,这一根网线理论上来讲可以得到接近,呃1万啊,接近差不多一万多个吧,一万多个这个IP应该是没有问题的啊,一万多个IP你想想就很牛逼了啊,这个时候你可以从国内外,然后好多地方花便宜的价格买点IP,买点这个一个地方买一台服务器,对吧,然后呢,他就得到了一个IP,一个IP的话,你如果可以用的话,就可以用到很多地方,对,那这这个东西就很好用了啊好了,当然这是后话了啊,我不省那么多,那么接下来我们看一下这个如何拿到代理IP,以及如何使用代理IP的话,刚才跟大家说了,就这些网站里边随便找都行,当然它不一定好使,对吧?另外一个呢,就是你要测试啊,你要测试才能用,那么接下来我们看一下在我们开当中如何。
12:01
去使用这个代理IP啊,代理IP的一个基本使用啊,首先的话,代理VIP就是当我们发送一个请求的时候,我们的,呃,比如说这样吧,我们到到一个网站上面,诶,呃,刚才这个在我们的课件里边有一个网址啊,比如说这个id138.com和这个叫这个网站来看,还有这个。看一下这两款。上面这个网站它直接返回了一个建证数据,看到吗?建证数据里边是不是有你当前的这个叫呃,诶这个IP地址看到吗?有一个IP地址啊IP地址,然后你也可以使用这个叫这个位置啊,进行IP的查询啊,当前的IP啊,啊当前的IP,然后呢,或者是直接百度IP,也可以来百度IP。嗯啊对,就这个地址啊,ip138.com我就这个位置啊,就这位置啊,那这样的话就是通过这两个网址,你可以知道你刚才的网站IP是不是啊,能够请求到啊来这样我们来看一下啊,就是检测,就是先请留一个网站看一下我们的IP地址啊,正常的一个网站就是看那个吧,就看这个吧,因为这个它是他反应结果是一个找数据,我们处理起来比较啊,比较方便啊。一个一个UUR先先导入我们的包啊呃,导入我们的request,然后第二个呢,使用我们的in个叫叫叫什么来UR,然后定义一个请的,然后接下使我们的,我们向他发一个请这个。
13:11
啊发到哪发到我们这个啊,发到这位置去啊,然后发出请以后,接下来呢,它是数,所以呢这个判断发到我们res点就是后的,如果等等于200,最终我断请求OK,请求归OK的话呢,OK的话呢,我们要获取它返回的数据,因为他刚才返回的数据是一个接S啊,所以我们这个地方呢,可以直接读取啊res.g son括号啊然后呢,我们来看一下这个是这个返回的数据,在下面内容呢,我们做一个普反应啊,反应A反应好对的啊,来写一下注释啊,上面这位的呢,是定义请求R请求的URL,希望各位小伙伴呢,最近也要注意一下,就是你在编码的时候注意一下编码规范啊呃,后面的话我有时间会录一套课程,就是专门讲编码规范的,那么呃,希望各位小伙伴多多支持啊,来看一下我们第二个是发送请求,发送第二个请求带个请求,然后呢,这个位置呢,是检测请求,检测请求状态,请求请求状态啊然后呢,后面的话是获取想要内容,获取获取想要内容,想要内容。
14:09
响应。响应内容好,那么接下来我们做一个打印啊,来右键查啊,启中一下我们的脚本,来看一下这个位置啊,来他返回的这个结果里边,当前我们想找到谁呢?找到这个位置啊,找到这个位置,这个位置如果他能够得到这个数据证明的话,我们当前的话,这个就是请求成功的啊U,我们这个请求头是要做一个简单的伪装,伪装的话,那个今天给大家讲一个包,这个包呢,可以装门去伪装我们的请求导航,来看一下heads head等于括号,然后呢,我们写一个叫呃,User杠,这个叫agent啊,然后冒号,这个位置呢,我们导出一个包进来啊,来看一下这个包叫什么,From,这个包需要安装,我忘了啊,FA。下一件。啊后呢,去16化一个对象就完事了,我看一下,嗯,UA等于我们当前的user的括号16化对象,然后呢,把这个UA的UA拿对象拿过来,这个UA点上它的一个叫random啊导这个属性它就是能帮你随机,当然大家可以看到这个包它目前没有成功对吧?这个时候我们只需要安装一下就可以了,打开你当前的终端,当然我当前用的是ma系统啊,各有小伙伴的,你你如果是用的Windows或者其他系统都OK啊,这个位置输入PI3,然后in到我们当前的叫fake详线user a,这也是一个第三方的包袱库啊,它可以帮我们随机啊很多这个内容过来,嗯,就不用管了,这个东西不用管了,安装完以后就好了。
15:38
这个启动。嗯。怎么没有反应呢?我们刚才加上这个内容,为什么没有反应。个问题通这问绝对失定时。
16:06
哦。我们的并没有给设置对不对啊,这个位置设置它这这么大的话,也不让你用爬虫去啊,说白了你告诉我告诉别人我是爬虫,谁谁更讨厌你。也不行吗?是,那不挂了。刷新。这个有问题。我们使用的这个包有问题,测试一下,测试一下,看一下右键。稍微走,你。哦,是他在出问题,他影响我们这个速度,诶不对呀,以前都很快的呀,Ran ran do。我用错了吗?Us,然后us agent,然后实例化对象us,没错,然后呢,UUA。
17:06
呃,如果出现问题,那这个是什么办呢?这样你去看一下这个包啊,看一下到到它的官网里边叫P p.org RG读完了啊看一下我们去找一下这个包啊对,呃,复制一下这个包了没有什新来。就是说白了,我们的包都在这个位置啊,来搜索一下看一下。显示你别这么。什么别翻译啊,你什么假用户代理说的好好气人,好来看一下啊,这个位置告诉你怎么去使用啊,首先第一步去导入,去那个安装,安装以后导入,导入的话,你如果是用使用IE的可以IE,然后呢,这个诶它有一个随机的呀啊,你看这个味道,你或者你可以直接随机RNDOM看一下我写错了吗?RNDOM没出来。他为什么不能用呢?看一下啊。如果你不想缓存数据库或者没有可写文件系统。他没没以前不需要啊。
18:08
这么办吧。这个不好用了呀,以前以前超好用这个东西,嗯,来我们访问,嗯,模拟一下,模拟一下谁UA点谷歌是吧。啊来用一点谷歌,那那就不不这么用了,直接这么用了,谷歌上面这个是。直接就不用了,来右键运行看一下行不行,那不行的话我们就坏掉了,这个包就不用了啊。这个包还有问题。我说他管。哎呀,算了吧,我们自己就别用了啊,别用的话,我们就直接把这个。这个内容来。把它复制一下CTRLC。找一个不用了。我们定义的这个右键。嗯。
19:00
方。来,右键再走。OK啊OK,没问题了,别别因为它在造成我们这个颈椎有问题啊,对这个包哎,本来想介绍大家一个好用的包了啊,结果它不好用,不好就算了,来右键我们这个地方来右键找你。啊,请求回来,请求回来以后,我们想找到这个谁呢,想到里边。哪个数据呢?找到这个数据,找到这个数据,复下们看一下这方式直获导航。注意中文啊,来右键重可以吧,可以吧,这是你的IPIP好了,你说为什么两个I际是这样,这个网站呢,它在返回的时候,那告诉你一个是HB,一个是hps的,其实都是一个IP啊,其实都一个你你你获取一个也行,就说这个话,你又没有办法能获取到一个一个数据呢,非常简单,点上一个嗯,点上一个S号,然后这个要用逗号分割,然后呢,获取第一个来优先运行数据。好了,是不是直接就获取了啊,获取第一个IP啊,获取一个IP就OK了,好吧,那这个位置啊,就说我们本机就是我本机的IP啊,本地的IP使用完以后呢,就是我们看一下如何让我们当前请求挂上一个代理啊这个位置呢,是请求到UR这个位置呢,是定义请投定义呃定义请求请求投往前投,然后呢,接下来呢,就是如果如果我们想要挂挂代表话,哎,就是首先要定义定义一个什么呢?定义一个代理,定义叫代理IP,代理IP代理IP啊代理IP,然后呢,在使用的时候呢,再去挂它,那我们首先得先去找一个IP哈,来这个叫我们去哪个网站里边去找一个呢。
20:32
呃,西西次西次代理办这个不好找啊,各位小伙伴,因为啊这个。代理基本上基本上哈,没有好用的。基本上就是这种代理都没有黄,第一次代点com点,然后存时间一百八十二天一分钟,然后呢,12月7号11点来我们测一下这个唐山的这个好朋友啊,来他的IP地址是多少看看好,就是我们使用的时候,像这种都属于高级的啊,就是这个是IP地址,这个是端口来CTRLCCTRLC复制一下,然后呢,到这个位置来定义IP地址的时候啊。
21:08
另一个叫什么叫什么,对呀,P。是9000是吧,所以这个位置写9000,然后呢,逗号复制一个,然后呢,改成一个as了,完事完事了,就这样啊就这样,然后呢,这个地方呢,使用代P的话就是pro six pro。是哪个?是这个啊,等于我们当前的pro啊,来这个这个这个数据给他传就行了啊,就是也就是说你在发请求的时候,第一个是UUR,第二个是请求的头,然后第三个你可以使用代理,当然了就说它这个你可以看一下,我们最踪一下代码这个里边一基本上它就说除了UR是地填的,其他参数都是什么,都是关键参数啊,关键参数有很多你可以去选择的啊,可以去选择啊这里啊先不给大家去介绍了啊,来右键我们测试一下看,如果他反馈的结果是111102438.252,就这么我在你的IP代理是好使的对不对,来看一下。
22:11
来110243.8.252就证明我们的IP,我的个天,我今天人气爆棚啊,人气爆棚啊,就是请求这一次就证明直接OK了啊,就这么说吧,如果你请求的这个IP它不好用,直接就获取不到啊,直接就惑不到,来看一看,比如说这个一百八十二天的,这个已经有100多天存在了,我的个天我不太相信他能还能再用啊。来看一下。哎,把它换掉啊,来右键运行走,你看这。有。有。今天邪了门了,我测了两个好使。以前不可能哈,这种情况一般来讲,我在这边就找个十个八个以上啊,才能才能找出来一个好用的啊,今天真是哎呀人气爆棚啊,今天我这个下班以后可以去买个彩票了,来设置一下这个地方啊,再设置下它电运行走你。
23:01
嗯。哎,你看你看他没有回来吧,他没有回来啊,没有回来,这个请求一直就停下来了,一直就停在这儿了。一直停,这就是证明已经有问题了,已经有问题了,我告诉你啊,就是他你请求不成功的话,这个请求这个IP不好使,请求不过去的话,一直停在这肯定不行啊,所以我们这这么说吧,就是他的请求时间如果超过五秒,Time out ort不能超过五秒,超过五秒我们就认为它是失败,来右键运行啊,重新在这里重新看这。预计一下。一般况个复。诶诶诶。把这个信息给大家核对一下啊。Copy,然后我们那个我们找。好了,来看一下,看一下什么意思,嗯,最大重试多少次,然后连接退出代码,然后怎么怎么就是连超过了这个最大次数了,他一直在发起请求,不成功就重新发起请求,重新发请求,重新发请求就一直在失败啊,一直在在做这个淘宝啊对好了,呃,那当然了,就是怎么才能让他呃不去报这个问题,不去报这个问题呢?来看一下啊,我们把这个给注释掉,来测试一下,来右键运行重体看看。
24:16
这个问题它不会出现我们自己的,而是在你一开始这个发请求的时候就出现了问题,看没直接报错了吧,这是一个异常对不对啊,直接报了个异常啊,直接报异常错误的话,我们怎么做呢?来这个位置非常简单,非常简单,就是在这个位置用一个,然后呢,在这里做一个判断。嗯,好,然后呢,呃,这个请求状态和数据的判断获还放到我们下面这个内容放到这。先把桌子打开。啊,这个啊,说明也放到这个对应的位置来啊好了,那我们来再测试一下啊来右键运行中,你看这啊。
25:08
他肯定不好使是吧,肯定不好使啊,好使的话,就你当年请求失败了啊,请求失败来我们再换回刚才那个啊,哎呀,今天这个西式代理真的好用啊,真的好用啊,他这这里我刚才测了测了三个里边两个好用的,我的天呐。人气爆棚,来,再放到这儿。放到这个位置也是9000。二那个他们个口谓看。好,这个位置证明是么?请求如果两两百的话,就证明请求成功了,请求成功率以后会把这个内容给返回OK了啊这就是我们当前一个啊IP代理的使用,那么有小伙问问了,说这个IP代理使用我们怎么去做哈,首先是这样的,我在这里呢,只是给大家简单演示了一下,我们代理IP使用了一个基本的呃方案,基本的方案以后是这样的,你这个代理IP呢,你需要需要比如说就是这个新式代理这个网站,然后呢,呃,你去把这个网站所有的IP全拍下来,然后对应的端口号啊,就是正好就给大家安排一个练习作业吧,就是这个网站西式代理这个网站啊,你可以爬另外一个也行,爬这个IP代理网站,然后呢,在这个地方,在这个地方啊,爬下来以后,把他们存到这个数据当中,一定要爬IP地址和端口,而且还是要高密的啊,还是要高硬的这种啊,然后呢,爬下来以后呢,把这个数据存起来,然后干什么呢?到我们当前的这个脚本里边来测试,如果它能够返回我们当前的这个叫什么呢?当前请求的这个结果就是呃,能返回当前你这个带IP的地址,那就证明当才那个请求是好用的,也就是说这个IP目前还可以用啊,还可以用,至少现在是可以用的,然后呢,你这个IP呢,就可以留下来,留下来干什么,你写到一个文件里边,把它保存一下。
26:32
啊,现在或者写到数据库都OK啊,你把它保存下来,然后呢,等到你去爬别的网站的时候,就用这些IP再去轮个的去盘,你那些网站如果不好使就换,如果不好使就换,如果不好使就换啊这样的话就是你可以达到哎,我们一直不行的换IP这样的一个效果啊对好了,那这样的话,这个基本的代理IP这样的一个使用啊,就给大家去讲解一下,然后剩下的就是各小麦去排一下这个网站,然后呢,你去爬一下网站之后呢,去测一测这个数据啊,怎么去使用好吧?啊下列课的话,我带大家去简单写一写这个啊西施代理这个IP的一个排取,然后包括这里边是不是有分页,正好我们再讲一下分页的一个使用,好了,这节课我们先先到这里啊,各位小伙伴,我们下节课再见。
我来说两句