爬虫-XPath简要知识点

使用re库,利用正则表达式,可以说掌握了一个通用的工具,大部分内容都能爬取,但是,每次写正则特征时,总会觉得很繁琐,哪天网页布局变了,需要调整特征,可能对于复杂的特征,较难调整,几乎相当于重写了,遇到这种情况,我们应该使用Xpath

XPath简述

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。

表示法

C节点为B节点的子节点(),B节点为A节点的子节点(),A为XML文档的根节点()。

B节点下的第一个子节点(),表示任意名称节点,B节点在A节点任意层()下,同时A节点还必须是当前节点的子节点(,前边没有)

轴描述语法

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

实例

[更多XPath教程参考][http://www.w3school.com.cn/xpath/index.ASP]

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181003G1FX6U00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券