00:00
目前为止呢,我们拿到一些东西,拿到什么呢?我们拿到了部分的一些数据,是不是拿到部分数据,但是呢,还有一些数据我还没有拿到啊,比如说呢,咱们看一下这个详情页面,比方说我这个简介是没有拿到啊,简介没有拿到,然后呢,这个电影的类型,这些东西我也没拿到,是不是,那我们呢,接下来呢,还得来到这个网页上,是不是会想办法获取到它这个类型和这个简介啊啊,当然呢,还有什么编剧呀,什么其他东西,那我们就不一个个拿了,我们不一个拿了,我们就拿这个类型,那这个简介就拿这两个数据,好吧,拿这两个数据,那接下来我现在呢,当前是不是在这个网页上啊,好,那我是不是要想办法又要来到这个网页上,是不是,那该怎么办呢?而且这个网页我有没有。我有是不是我有,我要想办法呢,说白了啊,说白了就是想办法,我要去这个当前的这个里面,然后呢,在我当前这个对象中啊,添加两条我需要添加的信息是不是一个是简介,一个是类型是不是好,那我们该怎么做呢?我们看啊。
01:12
怎么做?那么呢,到这一步是不是已经拿到所有的这些初步的results了?好,既然拿到初步的results,我就好办了。我就是造成了我用去定义啊,因为待会可能要修改它。我呢再去一个for循环,我这时候循环谁呢?循环result是不是这八条数据啊,循环这result我用来干嘛呢?啊这是啊,便利这八条数据,便利那个爬取到的八条数据要干嘛呢。我是不是要想办法要跳转到他们里面的一个网址啊,好,那这时候呢,我就要定义一个网址啊,在这里面再定一个U可以吧,好,这个U等于我是照着。
02:00
是不是I点。那个叫做HREF啊,是不是h re EF啊,那这里呢,我是用个定义吧,好,这里面呢,我就会有这个ul,那我在这里面呢,诶就能够这样做了。我是不是又去跳转到指定的网址啊,我接下来再次再去跳转一次指定的网址,而且呢,注意我这里是不是for循环啊哦,所以说我这里面还能用位,因为呢,他们会找最外层的这个函数,对不对,就还能找啊,这是只是一个循环而已,并不是个函数,如果你用for each的话,那就不行了,For each里面不是传一个函数啊,那你就在这里面呢,就用不了这个位,所以说咱们用for循环啊,好,接下来它是不是跳转到直定完整,然后呢,我是不是接下来又去爬取相应的数据啊,我是不是又调用这个方法。来,那我这一块呢,可能不要调用这么多啊,就一下。好,为我这里想要办法去爬取数据是不是好,这里呢,取取其他数据是不是好,爬取数据的话呢,我是不是待会就会来到我这个ul这个页面上啊,来到我当前页面上去爬取其他数据来爬取呗,我要爬取的是不是这个类型啊,我看一下这个类型怎么获取啊。
03:21
点击这个类型呢,诶,它有个特殊的属性叫做property,值为V,这个general general是不是好,是不是这个类型,下面你看这里是不是有三个这样类型,是不是对应的,我要取到这三个标签的。值啊,是不是要取到这三个标签的值,那我们怎么去拿到呢?首先大家告诉我怎么去获取到这三个标签。在这里面怎么获取的?就是多少福所于多少福大画在这里面是不是选选择器啊,怎么写呢,才能拿到这三个标签。
04:01
这是属性是不是怎么去写。属性选择记怎么写呢?两个。中括号这里写,然后呢,是不是等于某个值啊,等于什么值?是不是我一杠这个general,那这里好像有一个双引号包着啊,为什么不用单引号呢?用单引号去嵌套的,是不是弧形了一个双引号好这里呢,就会找到我们想要的这个类型啊,找到类型。好找到类型,我要的不是这个东东,我要他们的值是不是好要他们值呢,我怎么怎么办呢。来我这里面定一个值,定一个类型,就叫这样的,就叫这个东西,诶等一下啊。就这样一个这样东西,它初始化为一个数组,因为待会可能要去便利往这里面添加,是不是等于一个数组,然后呢,我先拿到这个类型的这个元素啊,比方说那我定一个Co,一个多乐福。
05:10
真的是等于它是不是好,是不是这个标签拿到了,接下来呢,我要做一个。是,遍地是遍地都改成。好编辑它,然后呢,我是不是接下来是往这个里面点push,我这个每一个他拿到了。取是不是是不是多姆对象,是不是完了说多姆对象,那我要到多姆对象的。是不是里面的数据啊,我可以怎么拿到呢,也。啊,Inner pass是不是也能拿到,当然in xtl也能拿到,是不是这样呢?我是不是可以拿到我想要的值啊,然后想要值啊好,这一步呢,获取到我类型的值,除了类型呢,我还有一个。简介是不是简介怎么拿呢?看一下。
06:02
找一下简介啊,往下走是不是这个右检查这简介呢,它把我装在这个是不是property summary里面啊,是不是这个东东,那我们就要拿到它,然后呢,它它的简介呢,也是如此的啊,那这简介呢,就简单一点,它呢,比如说简介叫做sum mayry summary。好,它呢就是这个啊we summary是不是we summary点是不是它的这个值啊,是不是点咱们有个点没方法,是不是可读可写的,可读可写的好,这时候是不是拿到我这简介了,拿到简介了好然后这简介呢,最终呢,这两个值呢,我应该要添加到我这个。是不是这两个东西上面啊,啊,我这里面呢,哪个值缓存一下,哪个值缓存一下,那样子一个什么值缓存一下呢。那一个我这里面的是每一个Li,是不是每一条数据,我就每一个item嘛,等于这个。
07:03
你猜这里是获取到每一条信息,是不是每一个条目信息?不兮兮了。好,这里是不是提取到每一个这样的东西啊,每个对象,然后这里是不是读取这个对象。啊,获取对象获取这个那个网址是不是获取那个详情电影详情。页面的网址是不是或者网址,然后这里是不是跳转到网址上去啊,啊跳转到电影详情。详情页面。好,就做这件事啊好,这里面是不是就会有个item这个变量啊,所以说呢,我在下面呢,就可以这样写啊item点。叫东东是不是就等于这个东东啊,然后呢,在怎么点。Summary。
08:01
是sum啊,就这样,是不是给这个对象上添加些属,加两个属性对不对啊,这时候就有数据了啊给。给单条信息,给单条对象,给电影的条目信息,单单个对象添加,添加两个属性,是不是个属性啊,属性好,这时候呢,就会有咱们的和这个summary了,是不是好,执行完成之后啊,我们来看一下最终的这个result,我们在最下面最下面最下面我们呢再打印一遍。最终的这result的值是不是又不一样了,我们看一下可不可以得到我们想要的内容呢?好,这时候呢,我们再次运行一下,看一下行不行,靠不靠啊一下。好,那同样打开页面了,是不是打开那个页面了,好,如果你不想要打开,打开的话呢,你就将这个调为。
09:07
数或者是不传,它把这个send给我打开,是不是这样的话也行,好这时候呢,他报了个错误,他说item is not,是不是来注意他这里是不是报了个错啊,好,他说这个错误呢,我们在哪里用了it呢?首先这里用到item是不是,请问这个时候能不能拿到item。可不可以,是不是就在上面可以的,是不是他说item is说的是下面这题item,它是因为呢,这里面注意就是我们在这个函数中啊,它们实际上这些代码呢,相当于是在页面上进行输入的,它是在页面上,而这些是不是在我服务器中啊,他们位于不同的地方,所以说呢,在这里面呢,我拿不到这个item,那么好,我想要使用这个item的话呢。我是不是现在暂且没办法,暂且没办法我就得去对这个result进行处理,就这result处理,那我这里这样啊,我探出去一个对象,这对下上是不是就这两个属性啊,就这两个属性,然后呢,我再想办法是不是把这两个属性添加上去啊,我再想办法把这两个属性添加上去就可以了,好到这一步来看,我上面是爬取数据啊,接下来呢,我拿一个东西去接收一下,这是我爬取其他数据。
10:24
嗯,这是我的item的result。T,是不是item result接收一下,那我这item result是不是这个值啊好,这里就会有item result是不是,那我就可以给result阿姨。给当前我这里是不是有it啊,It是不是添加这个,这是等于我这个值的这的同样的它的。Summary是不是等于它的summary啊,在这里是不是必须要在这个这个函数外面是不是才能进行添加啊在啊最后。
11:02
当前对象添加两个属性啊,这是因为呢。在这个。这个数。中没办法读取到咱们服务器中的一些变量,没办法读取到服务服务器中的变量,所以说你要把它返回出去,最终呢,在外面是不是添加进去啊,在外面才能添加进去,好这时候再来看一下啊,咱们现在呢,就不会打开新的页面了啊,因为呢,我已经把它调为send boss了。啊,运行之后内容就看它拦截果了啊,第一步呢肯定没问题,第一步呢,我们是之前写好的是不是,我们关键是看下第二步他能不能够帮我们实现掉啊,第二步呢,因为它需要去打开八个网页是不是,所以速度呢会比较慢,那我们呢,只能再等一等它了啊。那如果你觉得等的过程中不知道他发生什么的话呢,其实你不妨每一次把在最后呢,可以打一下这个。
12:04
还他们是造子是不是这时候是不是爬取到一个数据就会以打印输出啊,爬取一次就会打印输出啊,当然呢,我们看下最后有没有结果啊,其实最后呢,已经来了,是不是这个东西跟这个东西已经添加上去了,已经OK了,然后呢,这里面会发现还有最后一个问题,就是它这里是不是有个这样东东啊换行咱们呢,其实用不上,咱们呢,其实只要中间的这些文字就可以了,是不是,所以说我们还得想办法把这个东西给处理掉,怎么处理呢?来看啊,来到我们这个其他数据中,是不是这个东西获取的东西,它是一个有那个东西啊,有那换行标记怎么处理呢?最终法规值是不是字符串啊,字符串有个方法叫做replace方法,Replace方法是不是能够去将某些东西给替换掉啊,Replace好,怎么替换呢?它有两个值,第一个呢,可以将第一个传的值替换成第二个值,是不是,那要过什么呢来看。
13:00
哎,这样的我写错了。加油站多少?我呢这里写个全局匹配吧,是不是全局匹配啊,全局匹配这做这个东西,这个东西呢,说的就是什么换行符啊,空格回车符等等都会匹配到,一旦匹配到这些符号的话呢,就会把它替换成一个啥也没有,是不是替换成啥也没有好,这样呢就可解决这个问题好,最后呢,我们再测试一下就可以了。好,没有问题的话呢,我们就啊这呢,就是我们爬查到的数据啊,来看一下,这个呢,可能需要花费一点时间,那关键是看第二个啊,刚刚帮我打印输出一下,所以说他每次都会打印看现在还有那个换行符吗?没有了是不是,那现在就没有了啊这呢就已经做好了,咱们的这些步骤是不是好,那这些工作呢,就写完了,那下午呢,我们就会想办法将它呢,要保存在数据库中,是不是访问数据库中持久化保存,那今后呢,我去访问的时候呢,我就想办法去读取数据库中的数据,然后呢,把这个数据呢,返回给用户是不是好呢?我们下步来做啊,我们一下。
我来说两句