首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python 爬虫(三)

Web前端小记——CSS、XPath、HTTP标准

上节说到HTML文本会让网页变得有声有色,但是从上节的代码中发现,只是对网页上表层的内容有各种不同的显示效果,但是一个网页好不好看还得要更深层次的渲染,而CSS的作用就是如此,它主要定义怎么去显示HTML中的元素。这样定义完后和HTML文档进行搭配使用,就会使得HTML文本显得干净些。

CSS和HTML搭配使用主要有三种方法

一、内联样式表,就是将CSS代码直接写入HTML中的标记中,用style属性改变样式,比如

二、嵌入式样式表,就是把代码写成这个样子,就像是HTML里面的标记一样,通常这个样式会写在之间。

三、外部样式表,这个就是把扩展名为“.css”的CSS代码存在单独的一个文件内,在HTML文档的里使用标记,把这个文件链接到HTML文档中。比如

CSS规则由选择器和一条或多条声明两部分组成,选择器一般是HTML里面的元素,每条声明由一个属性和一个值组成,两者间用:隔开,两条声明之间用;隔开,比如h1。

根据选择器定义方式又可分为三种方式

一、HTML标记定义,上面的h1的例子就是这种方式。

二、ID选择器定义,对标有特定ID的HTML元素指定样式用“#”来定义,如#word。

三、class选择器,对HTML中class中的内容进行指定样式,用“.”表示,如p.center,对center中的p元素进行居中显示。

CSS定义的属性主要有颜色属性,用来定义文本的颜色;字体属性,用来定义文本中的字体大小,颜色形式等;背景属性,可定义背景的颜色、图片、背景重复和背景的位置;还有就是文本属性,定义文本的行高,间距,对齐方式等;以及列表属性,定义列表的标记类型,所处的位置以及设置图像列表标记。

XPath是一种在HTML文档中查找信息的语言,可以在HTML中查到我们需要的节点信息,查看XPath语法手册,可以看到其是用路径表达式来进行节点选取,具体的语法可查看手册。XPath在爬虫中还是很重要的,能帮助我们快速找到需要的节点信息,方便我们写出爬虫代码。

爬虫是模仿正常访问互联网的模式去进行爬取信息,那正常上网是怎么样的过程呢?上网打开网页主要依赖HTTP协议,这个协议会使得浏览器能接收到正确无误的超文本文档。首先我们在我们的客户端要和服务器建立连接,通过点击超链接;然后客户端再向服务器发出请求,请求中附带标识符、版本协议号、MIME信息;服务器接到请求后,给出相应的响应信息,信息包括协议版本号,一个成功或者错误的代码,MIME信息;客户端接收到响应信息后通过浏览器把信息显示在显示屏上,最后断开与服务器的连接。

一般上网时肯定会遇到网页错误的情况,像什么404,301等,这些信息的显示是在发出请求后,在浏览器接收并显示网页前,服务器返回的HTTP状态码信息头,标志本次请求的运行状态。常见的状态码如:

200——请求成功

301——资源被永久转移到其他URL

404——请求的资源不存在

500——内部服务器错误

详细的状态码可在网上查找

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171212G0B3QD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券