00:00
那我们是不是要访问一下我们当前那个页面啊,咱们呢,待会要做这个页面是叫做预告片页面,它对应的路由地址是叫做movie啊movie咱们之前呢,在我们菜单中啊,提前写了一个,只是还没实现而已,咱们今天呢,我把它给实现一下,我们看一下这个页面整体有些什么内容啊好,整个页面呢,就是一个这样的页面啊,它呢就是一个我们硅谷电影的预告一片页面,然后点击这个色程呢,跳转到我们的搜索页面上,好,然后这里面呢,是我下面的一个现在最新的一些电影是不是好,这就是电影的海报图,是不是待会要整一张图片啊,那图片呢,我们说了最好是把它上传到犀牛中是不是,然后这里呢是电影的名称以及电影的简介,然后这里有个收缩的啊,可以打开,打开呢可以看到电影的一些详情,详情的类型是不是啊,所有的数据的话呢,是不是我们待会都得爬取到啊,都得爬取到啊,导演主演等等啊,就跟我们之前爬取的东西一样。
01:00
那除了这些东西呢,我们这里有张图片是不是好,除了这些东西以外呢,下面就是我这个一个相应的内容了,是不是好,这里面还有一个功能,就是当我点击这个的时候呢,是不是可以去跳转到我这个。这个页面有这个电影可以看啊,有这个预告片电影可以看,是不是,所以说这个预告片电影是不是也爬取下来,也得爬取下来,并且呢,我们再看一下别的时候,它这有一张封面图,有一张封面图的啊,其实每一张封面图呢,对应的跟我的主主要的图片都不一样,是不是,所以这张图片呢,我也得单独爬取下来,这是一张电影的封面图,然后呢,点击的时候呢,我这里是我聚焦电影,是不是也爬也得爬啊,然后这是这些功能,然后另外呢,我在这里面呢,其实可以发送弹幕的。就是发送弹幕啊,然后发送弹幕之后呢,比如说你点击别的,点击别的当然不会看到你想要的弹幕,在别的地方呢,是看不到的,只要你点击到你当前这个电影上,然后呢,你去加载会看到你之前发送的一些呃,弹幕的信息啊,看下在哪里。
02:07
咱们刚才是在哪里发送的呢?就是。嗯,应该就在这附近是不是啊,咱们呢,其实就是在这里面呢,写了个数据库啊,写了个数据,咱们呢写了一个model,这里写成弹幕,通过这个东西呢,保存我弹幕所有信息,那当他每次读取的时候呢,就会读取这实时读取这个弹幕里面的内容,然后从而保存你相关的内容,能知道到底哪条电影上面有哪些弹幕信息,就会在这里面体现啊好,但是我们到时候要去实现功能,当呢,整体来说,比起我们之前写的热门功能的话呢,它要复杂的多,它呢先首先这个页面呢,我们待会要写一写它,它呢是整体是用boostrap写的,所以说我们要去写写它这是第一个,那第二个呢,我们在这里是不是有些视频的功能啊啊,这个视频的话呢,我们都会说借助一些库去实现它,借助库实现它,第三呢,这里面还有个弹幕,那弹幕呢,我们要专门用用我们的服务器来去写一写相关的内容,那这个呢,又会稍微麻烦一些。
03:13
所以说整体这个热门的功能的话呢,整体这个预告片的功能的话呢,会稍微麻烦一些啊,所以说我们来慢慢的把它完成掉,完成掉啊,那首先在写整体的功能之前呢,我们还是一样的,我们首先得有。是不是所有的数据先得拿到手啊,拿到手先把数据拿到手,然后再把相关的一些东西呢,该上传到犀牛的我就上传到犀牛,哎,比方说有哪些呢。首先这张海报图是不是这相当于是张中图或者大图,是不是好,这是张图片,然后另外呢,这视频啊,你得上传好视频的时候说了,这里每一个是不是都有个分配图呢?啊,这个分配图呢,也得上传,然后待会呢,至少有三个资源是不是上传到气流中好了,那我们知道这些东西分析完之后呢,我们把这个功能呢。
04:03
谢谢啊,好,那我就关掉这个就不看了啊,不看了,我们呢,先写第一步,我们先把数据给拿到手再说,是不是to明关掉啊,好,那我们先去爬取我们预告片这个电影的数叙数据,那我们应该在哪里写呢?是不是在色中啊,啊,色中它是能单独去运行的,压根不需要依赖任何东西,是不是单独可提取出来,作为任何东西都会去运行的,它是读成一套体系,专门用来爬取数据的。好咱们一个写,首先是不是写一个这样的prayer,那咱们复制一份啊来这个呢,我们叫做traer及l ER tra好这个呢是咱们的预告片电影数据好在这里面我们就在之前的基础上改一改,首先这个爬起的网站呢,就不一样了,是不是预告片,咱们看一下咱们预告片应该是什样的电影呢?
05:00
应该是。是不是最新的一些电影才会看预告片啊,那有的电影是不是已经出来过电影,我们就不再需要看那预告片了,通常是去电影里面观看了,那我们应该是看去最新的电影,看一下最新的电影怎么找啊,那这里面有一个叫做即将上映诶是不是它啊点进即将上映呢,这是里面呢,就会列举一些即将上映的一些电影内容,是不是啊,都在这里面啊,都在这里面,然后其中再往下走,这里面呢,它会列举一部分,是不是列举一部分,然后呢,然后呢,我们会发现呢,这些电影里面有一些你看。什么只有几十人想看的,那从这你角度上推推出来啊,就会发现这种电影应该应该来说的话呢,它比较。比较low啊是不是,但是这个电影呢,可能不太好看对不对,但是些不太好看的电影呢,我们就不推荐了,所以说我们到时候是不是过滤一下得过滤一下啊,然后呢,这里面呢,有可以查看全部的即将上映的电影,是不是点开它呢,一共排到了2020年,好像是啊。
06:08
看是不是2020年的排排到这一块是不是,那我们待会呢,就把这些电影都可以整一整啊,有什么唐人街探案三啊,是2020年上映的,是不是还小猪佩奇过大年啊,就咱们过年的时候能看到的是不是啊,这是贺岁黑是吧?然后呢,很多电影是不是都在这啊,然后待会呢,我们就以啊以这样一个过滤吧,以这个想看为过滤啊,因为我们不能根据评分去过滤,为什么不能根据评分滤呢?因为很多人压根没看是不是,所以说不能根据评分来看,我们就根据这个想看来过滤可以吗?那我们设计一个什么奇数的落定呢?比方说100吧,我看好多都是几十的是不是,那我就以100为过率,100以下的呢,我就不看,100以上的我是不是才看啊好,那我们就设定这个,那接下来呢,我们就得去爬取这些数据了,那这些数据的话呢,当你爬取完之后呢,这里面能拿到的东西就是它的上一日期,它的片名类型和它的这边地区等等,然后还有多少人想看是不是好,这里就会这个东西来过滤的,那在这呢,我其实要保存的。
07:21
东西不多啊,就保存这两个吧,因为这个上帝日期没有写年份,是不是我们呢,去这个里面点进去的话呢,是新闻这个电影的详情页面,是不是详情页面呢?应该会有具体的上映日期,是不是,那我去这里去爬取好了,去这里爬取好,待会呢就在这里爬,去这里爬取的时候,我们看首先呢,一些基本的数据,是不是跟之前一样的爬取啊好,然后呢,其中呢,这里是不是还爬取这张海报图啊,海报图片爬取到,然后再往下走,我是不是还排爬取那个预告片电影啊,他在哪呢?诶,这里是不是有个预卡片,而且这里有张封面图,我们可以看下结构啊,待会呢,就得取这些东西了。
08:03
检查一下呃,调到移动调到PC端,然后呢,放到最下面去看啊好往下走一走,是不是刚刚检查是这个,你会发现它这个标签,首先A标签跳转的这个地址就是我的。地址是不是在这,那这里面呢,检查一下啊,就会有我想要的预告片电影的,这里要特殊找一下是不是video标签,打开这里是不是有个R啊电影就是我想要的预告片电影,我们可以看一下啊,回收。就是我们想的电影,诶这里电影也有啊,图片呢,待会是不是上这里打开这个A标签啊,里面会有这A标签里面是不是有个background image啊,这张图片呢,就是我这张背景图,所以说我待会这张图片是不是也想法整到好数据呢,都在上面,所以说我们就想办法获取到就可以了啊来我们去获取吧,我们从上到下呢,一个一个去爬取,首先先来到这个页面是不是,所以待会呢,是不是要复制这个页面coming敏的页面来完整的改一改,叫做改那个coming敏是不是好往下走啊,看一下哪里需要改呢?好,首先呢,是不是这里要改一改,看一下这里面什么结构啊,来右键检查一下。
09:18
它呢是一个table表格,表格的是不是好,这里面的每一项是不是TR,每一项都是TR,也说我待会呢找到这个。Table再找到里面的tea是不是就可以了,找里面的tea里面的TR,每个TR是不是,然后再从DRR里面是不是找我想要的这个。这个东东和这个地址啊,这个东这个标题和这个地址我都要,然后呢,还找到这个冒险,然后还有这个最后一个想看是不是好,那这时候呢,我们来找一找它啊,看怎么找来,我们来找到它,那我们这里呢,先把这个标签先拿到,首先是come in this,找到这table。
10:03
卡找table table下面的。T body是不是table下面的t body teaboard table body下面的TR标签,这时候呢,会找到所有的。TR标签是不是TRS啊,TR标签啊,TR找到了之后呢,那我是不是接下来就要去便利着每一个TR,便利每一个TR,然后呢,便利TR呢,要取出里面的数据,首先要取出这个东西。想看是从这个东西来过滤它,好,那我们就去要去遍地每一个这个东东啊,这里面呢,我们就全部遍地点是不是,然后取得这每一个。TR元素是不是TR元素?好,拿到每一个TR元素的时候,这里不是提取八条数据的啊,这里也不是热门电影,就是所有的即将上映的电,是不是即将上映的电影。
11:05
好,然后呢,再往下走啊,我拿到这TR了,我接下来是不是要去想办法获取TR里面的东西啊,获取。获取想看的人数是不是好?怎么获取想看的人数呢?The number。等于一个多了符,首先肯定要把它包装一层整合对象的啊,啊,我是不是也要想办法拿到它一些子元素啊,完全是它子元素中的。最后一个子元素是不是TRTD啊TD,那我们怎么去达到它最后一个子元素呢?点。是不是应该有个拉child,是不是能选中它最后一个子元素啊,形中它最后一个子元素的话呢,接着呢。我是不是要它的一个点HTML啊,好到了我看一下能不能拿到啊,Last try这个方法是不是,嗯,好拿到它这个元素之后呢,我接下来是要判断它的大小,好判断。
12:17
Number的大小。那衣服。我觉得那么大于100的是不是才整啊啊,那那么大于100的才证明是。啊,想看人数大于100这个电影呢才较好,是不是电影才较好啊,那不说很好,但是说至少比100以下的更好一些,是不是好,然后呢,这里面呢,我再去爬取它里面的数据啊,这些数据我都不要了,好爬取的话呢,我就去定义呗。我那一个排取什么呢?我需要是不是需要去爬取相应的内容,比方说这个第二个体积,是不是怎么拿第二个元素呢。
13:10
我呢需要这个连接地址,连接地址啊,比如说就叫做HRF,待会呢要跳转的连接地址,这个连接地址怎么获取呢?怎么找到它第二个子元素。咱们能用什么方法能找到呢?好,这时候呢,我们要去看一下这会儿的方法,是不是我们来去找一下文档。看一下折的方法。J扣里的官方文档是不是在线手册,然后这时候呢,在这里面呢,会告诉你很多选择器,这里面呢,有这是一些选择器,是不是咱们之前是不是用了一个for last child的,那在这里面应该在哪里看的呢?我们看一下啊,应该在这里面去选择我这些想要的一些内容,咱们刚刚是不是选择last child的,呃,好像是没有这个last child,它应该是叫做。
14:13
方法EQ是不是能选择你想要的东西啊,咱们刚刚那个应该这个方法呢,是应该是没有,应该是原的方法,咱们这里折块的方法呢,叫做last,首先前面这个我们应该写错了,应该叫做。Last是不是,然后下面这个呢,我们是不是通过EQ可以选择啊,我选择下面为。一的是不是能找到我想的元素,好,找到了元素接着再来看啊,找到元素了,那接下来呢,我就想办法去获取这元素里面的想要的内容,是不是啊,来这个元素我又找下面的。A,标签对不对,诶其实咱们这里呢,找他再找他的。
15:00
是不是还得找他的A标签呀,找A标签才行,然后找到A标签的HTDR的HRF是不是GR,是不是这时候呢,就能拿到我想要的这个。连接地址是不是好,这里呢,是我的。电影详情页面,待会呢,我就得去这个详情页面上爬取数据了,然后除了这个呢,我还得爬取这个标题是不是好,这样吧,这些标题呢,都放在下一个爬取,我这里就拿一个详细页面可以吧,我就拿个详细页面,然后这个剧情冒险呢,我看下这边好不好爬。这边是不是也有啊,那我们都放在这里来,我们这里呢,就拿一个碗页就行了,好,那就让我为了让我是不是接下来可以接着走啊,接下来走好,那那我拿到这个呢,那我最终呢,要记得将它给。Return出去是不是它呢?最终应该要添加到一个数组中才行,对不对,添加到数组中,然后到后面呢,我才发现我去命历,所以说在最外层呢,我是不是定义定义那个数组叫做通数组啊,然后在这里面呢,是不是result.push这个地值HREF是不是啊复制进去,然后最后呢,你记得在循环之后啊,你记得把它是不是出去啊出去好这时候呢,我就拿到了我这个所有的这些地址了,接下来我是不是只需要这个地址上去爬取了,好那么下一步我们去这个地址遍地我所有的这个数据。
16:33
便利爬取到的数据啊,爬取便利它的数据,然后呢,取到它每一条数据,就是这个地址啊,实际上这个东西呢,就是不是是不是拿到这个每一个地址啊,拿到获取电信详情页面的地址,好就是这个HRF,然后呢,我接下来是不是跳转啊啊或者ul接下来就跳转,跳转之后呢,是不是接下来又在这里面去获取我想要的东西啊好在这里面获取想要的东西,那这里面呢,我们整一下啊,我们来到我们这个页面上,我们呢接下来就来到这了,来这里面呢去爬取吧,我们呢,首先要爬取它的这个电影的标题是不是好,右键检查。
17:14
是不是这个东西啊,这个东西就是我定义的标题是不是,那我就把它换成。那一个写电影的标题,标题。啊,这个东西我先不改吧,待会可能还用得上,我们从上到下一个写let,一个title,等于我这个下面这个东东是不是复制一份CTRLCCTRLV,然后呢,把这个CTRL。Ctrl a是不是拿到它它的值的点。HTML是不是拿到这个标签的值是不是好只有了这是我电影的。标题好,接下来呢,还有我们的一个写啊,标题有啊,接下来呢,我这里是不是导演啊,导演也拿下。
18:02
导演呢,我检查一下怎么获取。好导演麻烦一点,他呢,是在我的一个。应付整个div中里面的其中一个SP是不是好注意这些这些属性,我们看一下这是不是叫as啊,我解查下面的是不是也有as,所以说你这里呢,光拿到这个呢,可能还不够啊,还得去针判断一下到底是不是我们想要的,我们发现这里是不是有个特殊的属性啊,它叫做REF,那我们是不是可以找这个,哎,这个呢,肯定是一样的,那我们呢,就要导演的话呢,复制一份啊。然以我们叫做direct是不是好,这里面呢,把这个给复制一份,它呢是ref是不是RF等于我这个值是不是。Are you are you。Re,然后呢,点HL是不是他的这个想要的这个值是不是这个导演的名字啊,这就是我们导演的名字,好,接下来呢,除了导演的,我还有演员,是不是演员呢?我就复制一份啊,好看啊。
19:14
看演员有哪些演员呢,可能多一些啊,主演演呢有这么多检查一下啊,演员呢,我们看一看啊,都是叫做we是不是好,它这里面呢,注意就是除了有能看到的演员,它还有一些隐藏的演员,是不是都放在这里面啊,都放在这里面,那么我们呢,就可以去判断一下啊,我们想要的这个演员呢,比方说我们就选择这几个他能看到的演员,我们怎么选择?首先肯定要通过这个标签去获取,是不是通过这个标签去获取,比如说我们就显示三个吧,待会我们只拿三个就好了,那我们呢,这里要改一下,改成这个它呢是对应的是也是RE1,是不是也是RE1,好演员的话呢,拿到之后呢,通过它呢,是一个数组,是不是它呢整体呢是一个数组,然后呢,通过调用这个H方法,你能不能拿到想要的。
20:15
可不可以,那卡他待会呢,会不会全部都掉这个HT方法呢。咱们这块应该有一个叫做影视便利的一个东西嘛,是不是也就是说他在这里呢,其实它自己会发生便利的现象,然后呢,会调用这个新的方法,是不是,那最终呢,它会有返回值反馈给你啊,会有返回值反馈给你,然后呢啊,但是呢,我们不需要所有的,是不是,因为我们不需要所有的,所以说我们这样遍历的话呢,他会把所有的告诉我,我还是自己写个遍历。那我们要的是他点乐,是不是他点乐子我们取,诶我们不是要三他点乐子,我们应该取取三个是不是取三个的话呢,我们首先把它初始化一个数组,然后呢卡点。
21:10
Push可以吧,Push一个我这个东西取这个J,是不是点取完J了,它就变成了一个什么对象,就变成do对象,不再是指对象呢,是不是do对象呢?你要用in the test或者the htl才能拿到,是不是in the test或者in the htl好这时候呢,就能拿到我想要的这个值了,是不是这个演员就解决了,我就取三个好引员解决了之后呢,再往下走,是不是还有类型啊,再看下类型。类型是不是就是这个属性啊,这个就好办一点啊,类型呢我们来看一下。嗯,下面呢,其实帮你做好了,是不是下面的帮你做好了,那我就不用改了,不用整了啊类型。这是我们的类型,好类型解决了之后呢,再下走简介是不是也拿到了上映日期,是不是也把你整好了,好这些都不用做了,看下还有哪些片差是不是这一下,偏差这一下。
22:08
是不是runtime在这里没run啊,Run time,那我们呢,整一下这个片长。好,这里呢,我们改成一个地址,看下能不能复制到啊不行,这里呢,改一下微叫做property微软,然后呢,取的是就是这个的。他的HT就可以了,不需要的啊,他直接点HT,因为它就一个标签,是不是直接HT就可以了,这是偏差,一个是run time run time品尝好,品尝有了,我看下还有什么需要取的。咱们评分是不是没去啊,我们评分还得取一下啊,右键检查下评分,评分呢,这里是we average,是不是we average,所以说我们这里呢,还得去拿下评分。
23:07
好,评分呢叫做re it andg re的话呢,叫做vega,好拿到这个东西的话呢,就可以找到我的想要东西了,评分也有了,接下来是不是往下走啊,往下走这里面我们刚获取了,然后在这是不是这里要获取一些东西,好这里面有预告片的一些数据啊,首先呢,这里面又有一个网址,是不是这个网址,待会是要爬取我那个预告片电影的那个网址啊,所以这个网址呢,我还得保存一下,我呢还得去。我那个预告片。电影的网址预告片电影的网址好这里面呢,比如说我看一下这里面没有瑞,我就再来一个瑞。Ref等于一个值,好,这个值呢,我们等一下。它那是不是一个这样的class啊,一个这样的class,那这个class呢,是它独有的,是video的一个标签,是它独有的,所以说只有一个,那我们就可以通过多的福点这个class,是不是找到我对应的这个标签,然后是不是取它的HTDRR里面的HRF啊,取它的her,好这时候呢,就拿到这个网址呢,除了这个网址以外呢,我是不是还要获取它的背景图啊,这个图片呢,是不是最终我要显示在我那个啊预告片电影的作为分面图啊,所以说咱们还得去定一个。
24:32
呃,电影的封面图。封面图片,然后这里面呢,我们叫做cover啊cover然后呢,也是当起这个标签,也是它就是标签,然后呢,点ADR是不是取我想要的这个EK g rud是不是好取到这个东西的话呢,最终呢,这两个东西是不是都拿到了,我最终是不是要把我所有获取下来的东西是不是都返回出去啊,全都要返回出去,所以说这下面的就得一个写了。
25:05
Title,还有director,还有是不是director还有。好这然后下面的这个东西贴下了,Summer贴了,这三个贴下来,然后还有run time。Rack。这个地址。还有这个cover是不是好,一共要返回这么多东西出去,返回这么东西出去呢,我最终呢,应该是要想办法给它返回到最外面,是不是,所以说呢,我这里面这样写啊,我用这个result去重写它。来看一下,我之前呢,是不是请求的就是造,但是我第一次请求的是造,它的值是不是就是一个网址就是一个网址,而这个网址是不是就是我下面的时候爬取详情页面的时候需要用上了,诶那我呢,到时候需要用上的时候,是不是就是用上就可以了,需要用上的时候呢,我到时候再呃用上,用上完之后呢,是不是就没用了,就在这里爬取完这些数据之后,用完之后是不是那个我上面那个网址就没有用了,因为它就是用来爬取网址的嘛,爬取数据的嘛,完之后呢,我就重写掉result,但是在重写之前呢,我我这里面看一下,我这里面是不是有些问题啊。
26:24
我这里面还是不能用result,应该是还是em d这样写一下。我呢,最终呢,重写result应该在下面重写,在这个最下面重写,我们让result。比如说让他先等一个空数组,然后它是S点。不是,我每一次的值是不是,那我应该在上面去写啊,我首先在一进来这个判断的时候,是不是把result变成通数组啊,呃,变成通数组好像不行啊,它这里是不是要去取值啊,所以说你变成通数组还不行,那我们就只能重新定义新的一个变量了,是不是。
27:04
好,这里是我的result,那我再定一个新的变量吧,定一个什么呢?啊,咱们用的result了,是不是咱们再定义一个,这是我所有的数据,定一个movies吧,Movies对定义的数据是不是,然后他呢,是不是空数组啊,然后在这里面呢,我要当当我所有的数据返回数据之后啊,我记得要将它给添加进去,是不是添加到这个s results里面,将这每一项的值呢,我在后面呢,要记得要把它给。Push进来是不是push进来push我这个item result,是不是我这里面才会有值啊,要push进来这一步能不能懂呢?我们把这个收一收,收一收啊收一收,收一下我们就懂了,首先我是第一步,这一步我们是什么呢?抓取什么数据。
28:02
取我这个所有预告片详情。页面网址数据是不是它是不是专门爬取这个所有预告片详详细页面的网址了啊第一步呢,仅仅是排取网址,在这里面呢,我们做了一个战士啊,我们呢,判断它number大于,想看人数大于100呢,是不是就爬取啊,就爬取了一个网址,啥也没爬啊好爬取完之后呢,我是是接下来义个数组,数是所有数据的数组,所有影数据的数组,好它的初始化是不是空的,是不是好接下来呢,我就遍历了一下我所有爬取到的这些详情页面的网址,然后在这里面呢,我呢是不是跳转到它每一个页面上,每一个页面上是不是爬取我这个对相应的这个电影详细页面的一些主要的一些电影数据啊,主要电影数据爬取完成之后,这个电影数据你必须要保存下来,否则的话呢,它是不是立马就消失了,所以说我们是保存在我们之前定义好的这个空数组中,让它push进去。
29:09
好,当我这个循环流程全部转完之后呢,我这个是不是就会有所有的定义数据,就会锁定义数据了,好当然呢,这一步呢还不够啊,咱们呢做三步,第一步呢。是相当于。爬取所有电影的数据,然后第二部呢,是在这里啊,二这里应该是取什么呢?爬取主要的电影数据,是不是就是爬取主要的电影数据,那第三步还得爬取什么呢?是不是我那个电影连接啊,我那个对应的具体的预告片电影连接,你得爬取下来,所以说现在我们是不是还爬取,所以还得爬取第三部我们地域高片电影的连接,这时候你才算是OK的,是不是,所以说我们还得再爬取,那还得爬取是不是又得变低啊,又得遍地啊,所以说这个爬取过程可能会消耗大量的时间,它呢需要打开很多很多网页,是不是好在这里面呢?我也拿到这个let个item,等于我这个movie塔取这个,哎,好,拿到这个之后呢,我在下面是不是接下来可以去发了。
30:23
那我们呢,对应的也是做一个这样的处理C。看周边好在这里面呢,我是不是跳转到这个连接,那我是不是要把这个ul给拿过来啊,Ul等于点HRF,是不是就是这个HRF,好它跳转到这个地址,接下来就是爬取这数据,好我要爬取的没有这么多啊,就一个数据。所以我们只剩一个,我们要把取的就是电影。链接是不是就是爬取点链接好看下怎么爬取链接链接呢,会拿到我最后一个页面,是不是这个页面啊,我要爬取呢,是不是就是这个链接好我找到它怎么找呢?首先这里面是不是有个微调标签啊,啊注意这个ID属性呢,它是随机生成的,因为有一些这样的数字说法来的,它是随机生成,每个页面都不一样,所以说我们不看这个ID属性,我们看什么呢?我们就看这个video标签,这个页面上是不是只会播放一个电影啊,那就理论上就它就只能存在一个video调标签,是不是我就找这个video调标签就行了。
31:26
然的福是不是就是video标签,不是找它,找它下面的source,是不是找它下面的source?好找到之后呢,我是不是要获取这个SC属性啊,好,就拿到这个SC属性是不是连接了,最终把这个连接呢,我们叫做比如说link,那这个连接是不是返回出去啊。直接退出去就可以了。好,这个连接出去,他要做什么事呢。啊,那做这样做啊,咱们是不是拿到每个item了,我给每个item添加一个连接,就叫做link。
32:06
可以吗?给每一个是不是添加一个连接,就等于我最终取到这个连接可以吗?啊就比如啊,就可以等于到我这个连接了整个link,然后最终呢,把它出去是不是好。那这一步呢,就简单一些啊,简单一些好,这时候呢,我最终的这一个爬取完成之后,我这movie里面就会有我很多很多数据了,是不是有很多很多数据了,最后一步呢,我们可以再来一下啊。好,最后呢,我们是不是就将这个movie整体返回出去,整体返回出去好,那么我们呢,先来测试一下,我们写了这么久的东西到底靠不靠谱啊,来,我们来测试一下。叫做吹了。China,然后呢,我们就把这些都注释掉,我们就专门去测试一下这个数据库,我也不连了,我呢在下面呢,我去测试一下就行了。
33:02
比如how data等于这个值是不是好,只要他最终能打赢那些结果的话,那说明就没问题啊,我们来预习一下。好,它们爬取整体过程呢,会比较长的一些一些办法,诶这里呢,都是一些空数组,是不是瞬间就爬完了,那说明呢,我们是什么问题呢。说明我第一个值,你看我一共打三个值,一个是一个是一个是这个是不是都组,说明我们之前第一的result的值它有问题是不是好,也就说这里面我看下有没有腾去,有腾出去,那么也就是说在这里面我们获取的这个元素是不是错了,获取这个number肯定获取错了,好,那我们获取错了的话呢,我们看一下怎么找啊,这里面找错了。我们看一下。
34:02
怎么找呢?啊,应该是我知道怎么找的啊,首先找到它所有的子元素,然后在子元素里面找最后一个,是不是这样的,是不是先找到它子元素,再找到子元素,最后一个再找到XL吧?啊,应该是这样的啊,应该不是直接找这个辣子。那这时候我们再看一下行不行。好的,会稍微麻烦一点,好像也不行,是不是,哎,这个出水哪里说错了呢。或者是在这里面是不是可以写一个last选择器啊啊,应该这样是没有问题的吧,咱们是不是找到他所有的子元素,然后找最后一个冒号辣子应该是没问题的啊,如果这样不行的话,那我们就换成换一个方法啊。嗯。
35:00
还是不行,那我们就换一种方法吧。找所有的。我应该是找所有的TD吧,没记错的话应该是TD,我们看一下把这个完成了,我们就下课啊找所有的,诶在哪呢。我们看一下是不是要关了,找到所有的即将上映的往下走。所谓的全部上映的电影,然后看一下这里面的这个东西是什么,找到最后一个元素,说白了是不是TD啊,TR下面的找到它的TD,最后一个TD是不是好,这时候应该是没问题的啊,咱们的TR多我们也找到了,TR多我们找到了点,找它所有的TR下面的最后一个元素,然后找HTML。嗯,他好像也不行。Last child。Let's get,是不是好看一下?
36:03
哎,那那是个child,需要写作TD吗?我们看一下吧,看一下选择器,他呢,可能是这里整错了啊,我们呢,其实就是想找后一个子元素是不是last child的,那我们找最后一个子元素的话呢,就。我可以直接想办法去找啊,是不是,那我不能这样写,我应该怎么写呢。我能拿写里面吗?嗯,我们应该怎么写来看一下我呢,这种方式不好呢,我应该筛选过滤的一个是啊拉子应该是选择我这个,你看是不是Li点拉子啊,是不是先找到我的Li再点拉啊,你要找到它下面的是每一个的这个东西啊,那我们还不如直接找这个,找它下面还是放着吧。嗯,Find能够找所有的TD是不是,然后再点last是不是就要找到了,那这样呢,肯定是能找到了啊,咱们找到所有TRTR多都找到的话呢,那我就找TD,找TD之后再找最后一个TD,然后再点H7,没方法啊,但是最后的值我们拿不到,看下是不是哪里写错了选择器。
37:23
再对一遍吧,我们看下对一下显择器啊,首先第一步呢,是这个table table是coming没问题,是不是点com下面的t body是不是body没问题下面的。TR也没问题,是不是TR也没问题,好找到TR了,我再去遍历这个TR,是不是找里面的每一个TD呀,好,这TD呢,我也没问没问题啊,我也找到TD啊。TT里面t body,诶,那我这里不这样写啊,我这样写。我不用氢儿子选择器啊,可能是里面加了一个东西还是什么原因。
38:04
我不用七二次选,我看一下行不行。我这里是不是拿到每个TR,呃,好像现在也拿不到这个值是不是,呃,哎这个怎么回事,拿不到呢。我们来拿下。说白了就是待火时刻这样的样子,我呢找取得它第一个元素,第一个元素呢,再给它把第一个元素包装成一个折破对象,包装成个出对象呢,我再调用这些方法,是不是这这样整体的是这样的结果啊,我们在页面上运行一下,看下行不行啊。诶。是不是页面上可以拿到小值啊,但是注意它这里是不是有个人啊,这是因为这个人,所以说它是不是不能进行比较啊,比较不了怎么办呢。我们用这个东西。叫做pass in,是不是可以把它给去掉啊,是不是用pass in就是最好做法,这里面呢,是不是能够拿到我想要的值,就能拿到想要的值,它能够去,是不是取出我那个前面的整数部分了,不能取出整数部分了哈,这时候大家就能看了,其实东西都拿到了,最关键的就是因为他这里有个人,所以说导导致这个问题。
39:22
好,这时候看一下。呃,返回值都是,那说明我们这里面看一下哪里获取错了。哎,是不是这个EQ也获取错了,我们的还得这样find。还要加上Y的才能EQ啊,然后呢,EQ找到第一个是不是找这个第一个A啊,那还不如直接找这个。诶,它这里面呢,就一个A标签,所以说直接找这个A就可以了啊再一次。他那里面就一个标签,所以说我们通过find的方法,诶是不是都来了,好都来了就好办了啊,那咱们呢,应该是下面的呢,应该是没多大问题的。
40:06
好,那下面这块呢,就比较久了,是不是好,那咱们就先停一下啊。
我来说两句