首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >关于xpath的应用

关于xpath的应用

作者头像
hankleo
发布2020-09-17 10:38:25
发布2020-09-17 10:38:25
7800
举报
文章被收录于专栏:Hank’s BlogHank’s Blog

1.xpath中使用contains

代码语言:javascript
复制
xpath(span[contains(@class, 'xxx')])

Xpath如何选择不包含某一个属性的节点? 这里可以用到 not 例如排除一个属性的节点可以使用

代码语言:javascript
复制
//tbody/tr[not(@class)]

排除一个或者两个属性可以使用

代码语言:javascript
复制
//tbody/tr[not(@class or @id)]

2.xpath按序选择

有时候我们在选择的时候可能某些属性同时匹配了多个节点,但是我们只想要其中的某个节点,如第二个节点,或者最后一个节点,这时该怎么办呢?

这时可以利用中括号传入索引的方法获取特定次序的节点,示例如下:

代码语言:javascript
复制
from lxml import etree
text = '''
first item
second item
third item
fourth item
fifth item
'''
html = etree.HTML(text)
result = html.xpath('//li[1]/a/text()')
print(result)
result = html.xpath('//li[last()]/a/text()')
print(result)
result = html.xpath('//li[position()<3]/a/text()')
print(result)
result = html.xpath('//li[last()-2]/a/text()')
print(result)

第一次选择我们选取了第一个 li 节点,中括号中传入数字1即可,注意这里和代码中不同,序号是以 1 开头的,不是 0 开头的。 第二次选择我们选取了最后一个 li 节点,中括号中传入 last() 即可,返回的便是最后一个 li 节点。 第三次选择我们选取了位置小于 3 的 li 节点,也就是位置序号为 1 和 2 的节点,得到的结果就是前 2 个 li 节点。 第四次选择我们选取了倒数第三个 li 节点,中括号中传入 last()-2即可,因为 last() 是最后一个,所以 last()-2 就是倒数第三个。

运行结果如下:

代码语言:javascript
复制
['first item']
['fifth item']
['first item', 'second item']
['third item']

在这里我们使用了last(),position()等函数,XPath 中提供了 100 多个函数,包括存取、数值、字符串、逻辑、节点、序列等处理功能。 具体所有的函数作用可以参考:http://www.w3school.com.cn/xpath/xpath_functions.asp。

3.xpath获取带注释的text

代码语言:javascript
复制
from lxml import etree

html_str = """
this from blog.csdn.net/lncxydjq , DO NOT COPY!
*****
html = etree.HTML(html_str)
print html.xpath('//div[@id="box1"]/div/node()')[1]
print type(html.xpath('//div[@id="box1"]/div/node()')[1])
print html.xpath('//div[@id="box1"]/div/node()')[1].text

output: can u get me, bitch?

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-05-18 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.xpath中使用contains
  • 2.xpath按序选择
  • 3.xpath获取带注释的text
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档