Python 爬虫（三）

文章来源：企鹅号 - 蛛网AI

Web前端小记——CSS、XPath、HTTP标准

上节说到HTML文本会让网页变得有声有色，但是从上节的代码中发现，只是对网页上表层的内容有各种不同的显示效果，但是一个网页好不好看还得要更深层次的渲染，而CSS的作用就是如此，它主要定义怎么去显示HTML中的元素。这样定义完后和HTML文档进行搭配使用，就会使得HTML文本显得干净些。

CSS和HTML搭配使用主要有三种方法

一、内联样式表，就是将CSS代码直接写入HTML中的标记中，用style属性改变样式，比如

。

二、嵌入式样式表，就是把代码写成这个样子,就像是HTML里面的标记一样，通常这个样式会写在之间。

三、外部样式表，这个就是把扩展名为“.css”的CSS代码存在单独的一个文件内，在HTML文档的里使用标记，把这个文件链接到HTML文档中。比如

。

CSS规则由选择器和一条或多条声明两部分组成，选择器一般是HTML里面的元素，每条声明由一个属性和一个值组成，两者间用:隔开，两条声明之间用;隔开，比如h1。

根据选择器定义方式又可分为三种方式

一、HTML标记定义，上面的h1的例子就是这种方式。

二、ID选择器定义，对标有特定ID的HTML元素指定样式用“#”来定义，如#word。

三、class选择器，对HTML中class中的内容进行指定样式，用“.”表示，如p.center,对center中的p元素进行居中显示。

CSS定义的属性主要有颜色属性，用来定义文本的颜色；字体属性，用来定义文本中的字体大小，颜色形式等；背景属性，可定义背景的颜色、图片、背景重复和背景的位置；还有就是文本属性，定义文本的行高，间距，对齐方式等；以及列表属性，定义列表的标记类型，所处的位置以及设置图像列表标记。

XPath是一种在HTML文档中查找信息的语言，可以在HTML中查到我们需要的节点信息，查看XPath语法手册，可以看到其是用路径表达式来进行节点选取，具体的语法可查看手册。XPath在爬虫中还是很重要的，能帮助我们快速找到需要的节点信息，方便我们写出爬虫代码。

爬虫是模仿正常访问互联网的模式去进行爬取信息，那正常上网是怎么样的过程呢？上网打开网页主要依赖HTTP协议，这个协议会使得浏览器能接收到正确无误的超文本文档。首先我们在我们的客户端要和服务器建立连接，通过点击超链接；然后客户端再向服务器发出请求，请求中附带标识符、版本协议号、MIME信息；服务器接到请求后，给出相应的响应信息，信息包括协议版本号，一个成功或者错误的代码，MIME信息；客户端接收到响应信息后通过浏览器把信息显示在显示屏上，最后断开与服务器的连接。

一般上网时肯定会遇到网页错误的情况，像什么404,301等，这些信息的显示是在发出请求后，在浏览器接收并显示网页前，服务器返回的HTTP状态码信息头，标志本次请求的运行状态。常见的状态码如：

200——请求成功

301——资源被永久转移到其他URL

404——请求的资源不存在

500——内部服务器错误

详细的状态码可在网上查找

发表于: 2017-12-122017-12-12 12:00:55
原文链接：http://kuaibao.qq.com/s/20171212G0B3QD00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Python 爬虫（三）

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐