Python爬虫之XPath

文章来源：企鹅号 - iKanG科技

各位小伙伴好，很久很久没发过文章了[忙于工作，忙于学习]，感觉特别对不起大家，今天开始重新更新！

看视频的小伙伴还是可以看的v.yingjoy.cn。

不过从今天开始本号主打技术知识分享（主要分享Python，爬虫，大数据，算法，机器/深度学习等内容）。

日后希望可以出一套爬虫教程，还期望大家支持我！

什么是XPath?

XPath（XML Path Language）是基于XML的语言，它主要用于确定XML文档中某位置的语言，是一个W3C标准。

在Python爬虫中我们经常使用XPath获取CSS Selector进行网页元素的定位，通常XPath可以比CSS更准确的获取到元素，CSS依赖着元素的CSS样式进行选择，通常会存在元素的CSS样式很少甚至不同，且同一样式在网页各处可能都会存在，造成我们获取到的元素不准确。

本文将代大家学习如何使用XPath来定位元素的位置，附带几个练习，多多练习就能掌握！

XPath的组成

在XPath中，有以下几种类型的节点：

元素

属性

文本

命名空间

处理指令

注释

文档节点(根节点)

举个例子:

这里的就是文档的根节点

就是根节点的子节点

是元素节点

lang="en" 是属性

XPath的语法

选取节点（这里与CSS进行对比）：

参考: http://www.cnblogs.com/ziyunfei/archive/2012/10/05/2710631.html#class

实战

后面结合Beautiful Soup进行元素定位，很方便。

第一次排版很丑，，，以后会慢慢改进，还请见谅！

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货