1.xPath介绍
xPath是一门在XML文档中查找信息的语言。xPath用于在XML文档中通过元素和属性进行导航
2.XML节点
节点:元素,属性,原子值(文本),处理指令,注释,根节点,命名空间
节点间关系:父(parent),子(children),兄弟(sibling),祖先(ancestor),后代(descendant)
3.路径
绝对路径:/ # 根节点
相对路径:// # 从根节点开始递归下降
若干路径:| # 节点之间的联合
————————————————
4.谓词及轴
5.运算符
6.常用表达式
/messages/message[1]/node() # 第一个message节点下的所有子节点
/messages/message[1]/text() # 第一个message节点的所有子节点
//message[datetime] # 查找所有含有datetime节点的message节点
7.常用函数
1). starts-with() # 获取以xxx开头的元素
2). contains() # 获取包含xxx的元素
3). and # 与的关系
4). text() # 获取文本节点
8.安装xPath
1).在chrome右上角找到选项–》更多工具–》扩展程序。把crx文件拖拽,即可安装。
2).如果安装失败,则打开开发者模式,再次安装。
3.如果2)也失败,请将crx文件(直接或后缀修改为rar)解压,点击开发者模式的 加载已解压的扩展程序,选择解压后的文件夹,点击确定,搞定。
9.使用xPath
1).在chrome右上角点击X图标,弹出XPath控制台,shift键选中制定内容,就会在控制台显示源代码
2).按住ctrl-shift-X,弹出XPath控制台
10.python中使用
from lxml import etree
content = etree.HTML(html)
ct = content.xpath("") # str类型
领取专属 10元无门槛券
私享最新 技术干货