00:00
OK,同学们,那么接下来啊,要跟各位同学介绍一下页面相关的知识点,那为啥呢?假如说现在啊,我们要采集一下京东的一个网站,对吧,这个网站中我们要啥呢?假如说我们要这个啊,整个整个页面中左边这个导航栏它的一些数据啊,就要这些到底是京东都卖啥呀,对吧,我们得看看就要这些数据,家用电器呀,手机啊,运营商数码等等等等,要这样的数据,那有同学说老师那就要呗,而我注意啊,同学们,我不是说要页面中所有的数据吧,我是不是要页面中的部分数据啊。对吧,各位,那那这里边儿你说整个页面中啊,同学们你看一下,我鼠标右键点个检查,各位同学可以看一下啊,整个页面那东西可太多了,而我们只想要啥呀,是不是只想要这里边的什么家用电器呀,把它再点开什么手机运营商要这几个汉字啊,对吧,各位。
01:04
对吧,所以说在这里边呢,我们就要了解啥,整个页面中,它这些标签的一些结构啊,标签的结构,所以说同学们哈,接下来我们要聊的一些知识点就是啥呀,就是这些页面的结构我们怎么去写,那在这里呢,同学们看我在这儿鼠标右键按new,此时啊,注意注意同学们,我选择的不再是Python的一个文件,我选择的是HTML的一个文件,在这块初级成员一定要注意啊,我选择的是哪个,否则有的同学可能说,那老师啊,我和你选完之后咋不一样呢?对吧,你不要去选择Python文件啊,我们要选择的是HTM的文件,来在这儿我们来写个名啊,051,然后写上下线,上硅谷下线爬虫下角线,这叫啥页面结构的介绍啊,页面结构介绍,那同学们你看啊,在这里边啊,它有很多,记住啊,这就是啥呀,HTML的一个主体结构,那我记得我原来在大学的时候,那么我们有一个HTL的课程,专门就考了一道大题,说啥呢?说HTL的主体结构是什么,同学们你看啊,我给它分的清楚一点。
02:24
同学们可以看到哈,是整个现在外边HTML中包含了啊,这个HTML中包含了两个大的模块。那这两个大的模块分别是什么呢?啊,分别是什么呢?我们来看一下。第一个就是hide,第二个就是body,而hide里边同学们你看是不是还有Meta和TITLE2个标签呢,对吧?诶这个要这个层次结构,希望咱们同学了解,就是谁包含了谁啊,然后接下来呢,同学们,我们围绕着爬虫啊给大家介绍一些简单的标签啊,介绍一些简单的标签,假如说同学们啊,将来呀,我们会画一些表格,对吧?诶,这个表格的里边这些标签有个坑点,稍后呢,我会给同学们介绍一下。
03:19
那么表格这个标签我们叫做table啊,Table标签啊,然后在这打完table之后,同学们注意啊,你按一下ta键,Tap键它就会自动出现一对标签,有的同学说老师我如果不按tap键可不可以呢?我直接打table,诶也行,这个没问题啊,那么一个表格中,咱们同学看哈,一个表格中我们是不是有行。对吧,有行这个概念还有什么呢?还有列呀,对不对呀,这个不需要咱们同学去记啊,只需要咱们同学了解即可啊,因为将来我们不写页面,我们是要干啥呀,从页面获取数据啊,获取数据听懂了吗?各位。
04:01
OK啊,所以说这个呢,表格之后啊,它里边有什么呢?有行,这个行叫做TR啊,我们来写上啊,写一个小注式,说这里边啊,这里边table是表格的意思啊,是表格的意思,那么这里边接下来TR呢,是行的意思啊,我把每个我即将要写的我都给你加里边啊,那请问同学们,你行里边是不是要有列呀?对吧,大家所以这个列的这个标签叫什么呢?叫做TD啊叫TDTD里边你可以写内容啊,你看现在就是啥呢一行。对吧,里边有一列一个TD吗?一个TR里边有一个TD吗?TD里边我们写什么呢?假如说写姓名对吧?哎,有的老师,那我一行里边只能有一列吗?对吧?啊,其实不一定哈,我们是不是可以有好多个列呀,所以说在TR里边我们还有什么。
05:02
还有什么,我是不是还有其他的TD呀,你再可以写这没有任何问题的啊,性别还有啥呀,还有年龄对吧,还有什么呢,还可以写性别呀。对吧,哎,性别这个就是一个页面,那么同学们啊,我写完一行了,我们来看看吧,在看之前呢,这写上这叫列啊叫列好同学们,那同学老师你这个页面写完之后,我怎么去访问呢?啊同学们注意啊,看这里把鼠标诶你看在这是不是有一个让你去选择的浏览器啊注意啊同学们,我们现在在Python中也好,在前端中也好,在后端中也好,我们使用的浏览器,大部分的情况下,我们使用的是Chrome浏览器,那我同学老师我在这没有这个选择,咋整啊,你把鼠标往这一移,它就出现了啊,就出现了好,在这儿选择Chrome浏览器。打开它,哎,同学们你看这块是不是就有这三个东西了,对不大家,但是有同学可能会想,老师我有点不太喜欢这个表格,为啥不喜欢这个表格呢?原因是因为在这里边啊,他咋的,他没有这个我们认为的表格啊,它是不是应该都有这个东西,哎,给你标识一下呀,大家注意啊,这里边呢,会有一些属性啊,会有一些属性,假如说这个表格给它个宽吧,啊宽有个200X对吧,再来个高是吧?嗯,高给它个啥呢?200PX给它这么大啊还有一个东西啊,就是我们的边框叫borderer啊,Borderer给他个多少呢?EPX对吧?就是啥呢?给他一个宽度啊,边框的宽度同学们我们再次刷新看一下,你看是不是就有了,而现在这个东西,我们视察是不是一行三列呀?
06:54
对不对,所以说在这里边你要知道啊,这是一个TR代表一行,一个TD代表什么,代表一列吧,好,那同学老师,有的同学说老师让我能不能再写几行啊,没问题呀,对吧,各位,所以说在table里边我们还能去写啥呀,T来看啊,那假如说在里边我可以写再写一行,里边还可以啥呢?给他填值呗,姓名张三,年龄18,性别,你爱写啥写啥,男女或者X是吧,无所谓了,好在这个TR中我们是不是还可以去写TD呀,对吧?这个TD要和上边一一对应,如果这个不一对应,你是不是就感觉会有数据丢失啊。
07:43
是吧,同学们,所以在这里边写啊,假如说这里边有个张三,那这个TD是不是对应了这个TD啊,那么下边是不是还有啊,好,同学们你看再写个TD,这个TD里边我们再写它的年龄,我给他写个18。好,TD,最后一个TD,我再给它附一个值,张三应该听名向南的,对吧?各位好同学们,我们现在再来刷新一下我们的浏览器,走你诶,你看同学们是不是就可以了呀,这个页面啊,我们暂时不需要有它有多好看,只是说这些标签,将来在爬虫的这些网页中,我们需要干啥去观察它,来看它的结构,你要知道谁在谁的下边啊,这是刚才跟跟各位同学介绍了一下table啊,TR和TD,当然呢,我们的HTML中还有很多很多标签在这里边儿呢,我们都是围绕着爬虫这些技能点,然后去讲解的。
08:43
好,同学们再跟大家说几个标签啊,这里边再在这写个注释,叫啥呢?叫u Li啊u Li下边还有什么Li呀等等等等,那这些到底是什么呢?我们来看一下效果,然后同学们思考一下子是吧,说这啊有一个ul标签。
09:03
Ul标签是我们在爬虫中应用的很广的一个标签啊,用的很广一个标签,那ul下边还有啥呢?叫Li Li里边应该写点什么呢?对吧,我们也不知道,先随便写点啥,那第一个我们写点东北菜吧,对吧?东北菜有啥呢?第一个铁锅炖大鹅,OK,我们看一下啊,这个标签它有啥作用?来同学们,我们在这儿刷新一下,看一下,走,你你看这是什么?前面是不是个小圆点,对吧,各位,我们把这种东西叫做什么?叫做一个无序列表,啥叫无序列表啊,前边没有数字,那有同学可能想,哎,那有序列表是不是有有数字了呀?是的,没问题,等我们把这个讲完之后,我再给大家去讲有序列表。好,一般在页面的设计上来讲,什么情况下会设置无序列表啊,就是你这个Li里边的东西,它没有什么相关联的东西,明白吧,假如说,诶第一个铁锅炖大鹅,第二个我们叫啥呀?假如说这个叫小鸡炖蘑菇,哎,这随便嘛,是不是爱写啥写啥,你喜欢吃啥就写啥,无所谓,来我们再来刷新一下,你看是不是需要小鸡炖蘑菇了,哎,这都有,而这种列表同学们你看哈,我把刚才京东的这个页面给它打开,是不是就是ul下边嵌套了Li标签?
10:29
Li下面是不是还可以有啥呀?有A标签呢?A标签又是啥呢?我们稍后再说啊,先把这个嵌套关系大家要搞懂,好OK,我们再来一个吧,再来一个Li标签,好,再来一个什么呢?锅包肉是吧?有东北话叫锅包肉是不是,我们再来看一下,刷新一下页面,看是不是和我们想象的一样,来走你OK吧,没问题,好,这是ul嵌套了Li标签,这个标签注意同学们,它叫无序列表,而且它在爬虫的使用场景非常非常之多啊,就这使用场景非常之多,OK,那刚才也有同学想了,那我这个有无序列表了,那么接下来有没有有序列表啊,对吧?那有序列表又叫啥呢?叫o Li OL下边嵌套一个什么东西呢?也叫Li,那我们来试试吧,说有序列表,有序列表。
11:30
是吧,一般情况下,在设计的角度来讲,他们应该有关联关系,那假如说早起啊,早上起来,早上起来你应该先干啥呀。你想一想,是不是应该先穿上衣服对吧?穿上衣服然后紧接着要干啥呀?要下床吧,对吧?来写上一个Li。啊,下床然后干啥呀,洗漱对不对?哎,我们来写这样几个关联关系的东西,你一定什么情况下你会设置为有序列表,就是因为他们有关联关系,从一到二到三这种层次的递进啊,所以我们才设计ul结构,但是现在的企业级开发中,我们设置OL的这个标签的场景不是特别的多,那同学们我们来刷新一下页面,看一眼啊,来走你,我发现是不是这样的,OK哈,这叫啥呀?就叫有序列表啊,有序列表相比较之下,无序列表应用的场景更加多一些。
12:31
OK,那么还有一种情况是啥呢?刚才大家也看到了哈,我们看一下京东这个网站中啊,它有一些什么AA标签,A标签又是啥呢?对吧?我们来看一下,这叫一个超链接,大家了解即可,那在这儿呢,假如说写个A标签,A标签在中间我们随便写点,假如说写上上硅谷,然后在hif里边我们写的是啥呢?上硅谷的域名,那有同学问了,啥叫域名啊,假如说在这里边哈,我们输入一下HTTP冒号斜线,然后it硅谷点com,好这个你输入的这个东西啊,我们称之为域名,那当然这个等到爬虫的时候,我再给你讲一下什么叫域名,什么叫做IP,好,我把这个复制到h ref这里边来粘贴过来。
13:26
那么同学们说这个东西是啥呢?我们来刷新一下网页来走你,诶,我发现它出现了这样一个东西吧,对吧?那我点它之后会发生什么样的一个情况呢?来同学们看一眼走你,诶,我发现咋的,它是不是跳到了这个页面中啊,OK吧,各位,所以说呀,这些标签是构成我们页面的一些东西,而这些呢,是我们在爬虫中需要知道的啊,需要了解的好,同学们,以上就是我们对页面结构的一些基本介绍,我把视频暂停一下。
我来说两句