00:00
好了,各位小伙伴啊,在上节课给大家留了一个作业练习啊,就是让大家呢去一下我们那个叫网站,这个叫西次代理这个网站啊,西次代理的网站呢,要求你呢,把这个IP地址和端口都下来,同时呢,这个呃能够做到分页对不对,我们先简单的带大家去看一下我们如何排取这个页面中的数据,当然这个国内高你代理IP这个新斯代理这个网站啊,它给你提供了API提取,你来看一下啊,这个有API提取啊,看一下,哎哟,已经啊,已经暂停免费提供API,就是以前是这样的,他提供API,然后大家呢,都用APA来获取数据,后来呢,他不用这个。啊,就是不给提供,然后多的情况我们直接。直接就是用冲去。所以这个网站啊,这个爬虫也挺也挺那个什么的挺多的啊对好,那么下来呃,反反扒设置挺多啊好,那接下来我们去看一下这个网站呢,这个数据这个如何去呃获取啊来看一下,嗯,来右键。来第啊,这是我们第四个吧,啊第四个啊第四个啊,爬虫进阶,爬虫进阶啊,这个叫我们爬虫啊爬取啊,这个叫爬取代理网站爬取爬取取取啊代理IP网站网站数据啊数据来看一下,那首先的话啊,我们查这个这个爬取,这个叫代理代理IP网站啊这个数据啊,代理IP数据,代理P数据,然后了以后呢,我们后面还还可以自用啊,所以来看一下啊,首先这个是我们请求的一个地址,请求地址里面,那么拿到请求地址之后,它会给我返回页面,对对,如果没有问题啊,容你请求成功返回这个页面以后,之对的就是从这个页面当中来获取这个IP地址和对应的端口号,把它存下来就可以了。来接下来我们看一下啊,如何去使用呢?来第一个去定义我们的,我们看一下这个时候怎么去做啊,我们定义一个方法定义一个。
01:45
Request,请。我先写吧,先大家去写一下,写完之后我们再做分装,好吧,来把这个内容啊放放到这位置,这是我们请求的这个这个I址然。
02:06
嗯。基本上这个网站的话,就是你具备这两个数据的话,就没啥问题了啊,这个位置定义成功定义。掉,接下发起发URL和我们当前的这个啊,等于我们的给装进去,传进去以后呢,接下来呢,这发这个地方是发起请求,发起请求那么之后呢,我们去做一个判断,就是验证请求啊,就是验证。这个判断或者叫判断请求,判断请求状态,请求状态,那么这个地方呢,E步判断我们is的is.sd6是扣的等等结果等等于200个请成功了对吧?请应成以后开始干什么呢?来提获取获取响应数据获取获取响应数据响应数据响应数据,那么这个位置呢,换换成res啊诶诶啊data啊data res res。
03:04
键运行一下,我们单脚本看一下结果回来了没有,回来了对不对,回来的结果是一个什么,是一个二进制,是一个二进制的啊,所以二进制的话,我们需要转一下,转的话呢,在请求的过程当中,我们用这个叫。大家应该可以这么用哈,叫de在这个地方去转杠地方转。看看没问题吧,啊,没问题啊,回回来了啊,这个数据啊,好多好多啊,回来之后这个数据里边我们来看看如何提取,我们刚才所说的啊,这个叫IP啊,IP端口这个东西怎么在哪里在哪里去找一下啊,这么找麻烦对吧,你我建议你直接从咱们这个浏览器里边啊,打开我们的检查这个工具,找到我们的调试工具啊,这个鼠标往下一点啊,往下一点,然后。啊,最后这个是不是看一下。
04:08
一直到最后没问题啊,只不过第一个不是啊,第一个是。你看一下啊。妈呀,他拿的是。啊,大家来看一下,就是你在这个过程当中,你想使用什么方式来进行获取啊,我们之前给大家讲过,就是你可以使用这个叫什么呢?咱们的叉pass啊,然后呢,也可以使用我们的,呃,这个叫做什么对不对,或者是对方说过啊,这些都可以啊来看一下这个位置,我们就找TD啊,就TD就可了。找TTTT,我看一下啊,还得符合要求,有的还不一样,知道吧,有的还不一样啊,我们来看一看。II。
05:09
啊,看一下端口基本上都是四位,还有五位的端口有三位。有没有两位档口看一下。啊,这个页面都没有啊,没有两个端口,我们用什么获取呢。用我们要用我们的这个。有点起来了,我使的。叫易脆是吧。ER。哎,不对吗?之前给大家讲过的这个我们导入用哪个方法。
06:02
我想不起来了。From l叉ML。Importt EG。哦,没写错。哎呀,太黑了,它黑了,我这个给自己整圈了啊,它这个位置啊,注意看一下啊,Sorry,可以小伙伴,那么这个位置啊,它from的一这个是没问题的,我们导入成功了,为什么黑色呢?因为我没有用,就是我这个地方还没有使用这个一税,你看etre,我只要是用一下,你看它马上就高亮了,我勒个天,这变音器。本来个就我就突然间有点想不起来了,对吧,结果他有点这种好了,不用管了,来接下来呃说这插个,那么接下来我们看看一下我们这个插是怎么使用的,插非常简单对不对,只需要用我们的这个叫做,呃,用什么呢?用我们的一个方法叫做。啊叫做叫做叫做叫做。啊,这个方法叫做什么来着,我怎么突然间就。忘了。嗯,易点什么来着,有一个方法。啊,使用来这个作我的脑子感觉没带啊,来使用咱们的叉PA解析解析数,对啊啊想起来res,当你的E点上一个叫S。
07:12
是这个方法啊,对,是这方法,这个方法的话,然后把我们那个的结果给我放来,放进来以后接下来什么呢?来就从那个点这个方法当中去找我们的数据啊,来看一看找什么数据呢?找到我们啊ipd址,哎呀太好了,这个地方叫res下划线,点STL点上我们的一个方法叫做。没有。他为什么说没有?他说我没有这个方法。没有什么方法,不可能啊。行吧。
08:07
没错吧啊,Sorry,我这个位置就写上这个引号是吧?嗯,引号好了,那么这个ID啊,找到它这个元素以后,我们再去找它下边的什么呢?再去找到它下边的这个,呃,看一下TL是哪一个啊。找到它下边的TR。TR。看一下啊。他上面有片吗?这个元素下边的所有TM。可以找到它的所有的对,然后这样的话是这个内容就找到了,对,然后我们可以在这里这个T,然后的的结果。结果应该看不到内容来看一下。都知道。都是各个标签对吧,然后呢,这个标签里边我们想要获取的是它的啊,这个I就是这个TR这个里边啊TD是吧,然后呢,从当前这个元素里边再去获取,所以这个位置叫ITM来看一下怎么获取呢,这是。
09:17
找它下面的TD,然后呢。第二个,然后呢,再去找。它里边的文本,那就是文本的话,这个位置用的是我们的这个叫做直接写T括号就可。然后我们看一下能不能得到Z。嗯,没有数据。TR下面的。那下边找TD。没有数据。TR下面的TD刚才是找到了TR。
10:02
然后要找到它的TD。看一下TD有没有啊,就先行。Table下边的T。为什么没有找到?什么结果没有?两个小包看一下。嗯。找的,为什么奇怪?奇怪奇怪,习怪习怪。嗯,我看一下这个位置T括号,我看下这个位置能得到能能不能得到一些信啊。
11:02
T塔it来右键运行动力。有东西,但好像是空的啊,有东西,但好像是空的。有东西,但是是空的。看一下哪里有问题啊,找到我们的table ID等于IP list下边它的TR。TR的所有TR的话。六点。收条,然后TR的话,呃,我要从TR里边再去找他的这个叫。TD看第一个TDTD这个这个不要了,这国家啊,这个第是国家,第二是I pip的话没写东西,没写东西也没问题啊,我从TR下边找TD。你找到几个应该多几个才对应对吧,然后这个位置,所以我才从这个位置,然后点点上插PA括号,然后呢,放杠P右键运行,总体看这。
12:05
这不找到了吗?刚才为什么找不到,讨厌。然后呢,获取它的文本D的括号,这不是可以吗?你看,哎,奇怪了,为什么刚才不好使啊。商家不好使啊,来看一下这个位置没问题了啊,这样的话这个IP是不都获取到了,而且诶等会等每个获取都一样吗。1112,然后77,我看一下啊,17是哪个。哎,我们找到的不是同一页吗?我这个天来刷新一下。啊注意啊,第一个现在换成七二点四七的第一个,然后最后一个看一下爬到的最后一个是谁爬到的最后一个是他的八五点八五,看一下八幺五六点八五,没错没错,诶为什么这里边有重复这么多。
13:02
TR下面的是我们用T号号方式获。T。往前注意一下啊。所以。这个没问题,没问题,获取到了,获取到了是吧,获取到这个数据以后我再要,再再要的话,就是要它的那个叫做呃,这个IP找到啊,IP找的话再要它端口,端口后边的那个另外一个下一个TD啊,所以AAA sorry sorry,来CTRLC复制一下,这个是三三是吧,然后呢,这个位置是IP,然后呢,这个是呃,POS,然后呢,把这两个数我。不用打印了,我直接压缩,压缩的话,用我们的这个压缩。这一波我看一下用例子括号星这星这一波,然后把我们的IPS和我们的pops压进去右键啊,然后呢,看一下我们最终的这个数据P啊,还写分。
14:07
我们当前的一个,然后这个位置等于好来看一下结果。嗯。这款吗?来用这款。来看一下这个数据,这样的话你看呃,七二点四七,看他是不是999啊,来看我们看这个吧,看倒数的这个67205对不对就行了,6720567205往回走。67205在哪。672056123461234对不对,正好好了,那这样的话,这个IP是不是就排下了,好但是注意啊,此时此时我们排下来这个IP还仅限仅限什么,仅限第一页的数据啊,仅限第一页的数据啊好,那么这一页的数据排取完之后,我们当前这个操作是不是就完事了啊,其实你可以把这个数据给存下来啊,给存下来好,那么大家考虑一下,就是我们如何排取下一页,这是当前第一页的数据。第一页的数据。第一页数据我们已经。啊,就说这个啊,数据已经处理完了,这个数据处理完以后呢,就说处理成这个格式以后啊,你可以去用我们当前的这个叫做呃,叫做叫做数据啊,直接存起来也可以,或者说你就把它放到我们现有的数据数据组列表当中,也是OK的,都可以,好,但是这仅仅是第一页,第一页数据,第一页数据,然后剩下的话,你还可以用我们上节课给大家去讲的这个IP的测试,然后判断一下它的这个结果是否是正确就可以了,对不对,好了,那这节课的啊,这个呃,网站的这个IP数据啊,我们就暂时给大家讲这么多,那么下节课呢啊,就是我给你写这么多,剩下的话你可以去测试,就是按我们上节课的那个IP,你测一下我们这一要查下的数据里边啊,是不是啊能够这个叫做啊,这个这个这个他的他的叫什么,它这个有效的有多少啊,然后这里边给大家说一下,你可以去查看一下它当前的长度啊来。
15:41
Print啊,看一下100个 ip100个IP啊,这就是说每页里边有100个IP,但是你看一下它是有很多页的啊,那么下下一章节就给他,就下节课我们再去给大家说一下如何排取分页的数据,就是现在我们搞定那一页对吧,一页的数据是没问题的,那么接下来下一页的数据我们应该如何进行处理,好吧,啊,下节课我们给大家去看一下啊,这这一个还留了一个小尾巴,就是让大家啊剩下的就是啊,剩下的剩下。
16:04
剩下的的就是需要需要验证当前这些这些个这些个I pip是否是否正常正常好用啊好用,那么怎么去验证呢?就是按照我们上节课的个规则啊,然后呢,像那个叫那个那个叫什么,这个网站叫什叫STBB啊点org这个网站发一个请求,如果他能够正常返回这个内容,就证明它好使,如果返回不了,就证明它它是不好用的,那么你到时候呢,肯定是把好用的留下来,不好用的就不要了,对不对啊,所以就是准备数据行了啊好,那么这节课的我们内容就到这里啊,剩下的呃,各位小伙伴呢,自己做一个练习就可以了啊,下节课我们给大家看一下如何去排取直接带分页的数据啊,我们下节课直接。
我来说两句