前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >XPath知识点梳理

XPath知识点梳理

作者头像
亦山
发布2019-05-25 09:51:39
1.1K0
发布2019-05-25 09:51:39
举报

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://cloud.tencent.com/developer/article/1432228

1.XPath 的作用

XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。

XPath是一种表达式语言,它的返回值可能是节点,节点集合,原子值,以及节点和原子值的混合等。

2.XPath 表达式

      XPath主要功能就是定位节点。在DOM树形结构中,节点间的关系是既定的,通过节点所在的位置,可以通过路径寻找其他节点或者原子值。

     在JS里面,我们可以通过类似于 node.nextSibling.firstChild.lastChild.parentNode 这种方式进行定位元素,这种方式是通过逐级进行的,这个代码效率不高,

    进而有 document.getElementById()

   XPath 是根据其节点所在的位置,通过跟其他节点的位置关系,进行路径的查找和定位。

   通过一次查找定位的基本单元,叫做 步 (Step), 步的功能,就是根据当前节点的位置,给定它一个指定的维度(即查找方向)和相应的一些参数,来获取新的节点或者节点集;

  通过上面的一句话的描述,应该可以知道一步的基本组成部分有以下三个:

a. 轴(axis)    定义所选节点与当前节点之间的树关系;  XPath规定了节点之间的一系列的关系

b. 节点测试(node-test)       识别某个轴内部的节点; 一个路径或者一个表达式

c. 零个或者更多谓语(predicate)     更深入地提炼所选的节点集 ;提供一些谓语描述,进行结果的过滤或筛选     步的基本语法: step   =   axis::node-testpredicate      即 步为    轴 ::节点测试谓语

    路径表达式:

step / step / step /......

  轴(axis):

  轴其实就是一个在DOM 中的节点查找其他节点的一个方向,轴可定义相对于当前节点的节点集。XPath约定DOM元素 节点之间的关系有以下几种:

轴名称

结果

ancestor

选取当前节点的所有先辈(父、祖父等)。

ancestor-or-self

选取当前节点的所有先辈(父、祖父等)以及当前节点本身。

attribute

选取当前节点的所有属性。

child

选取当前节点的所有子元素。

descendant

选取当前节点的所有后代元素(子、孙等)。

descendant-or-self

选取当前节点的所有后代元素(子、孙等)以及当前节点本身。

following

选取文档中当前节点的结束标签之后的所有节点。

namespace

选取当前节点的所有命名空间节点。

parent

选取当前节点的父节点。

preceding

选取文档中当前节点的开始标签之前的所有节点。

preceding-sibling

选取当前节点之前的所有同级节点。

self

选取当前节点。

d.相对路径,绝对路径

绝对路径:以 "/" 开始的路径表达式,它将从根节点开始,往下找。 如:/bookstore/book

  相对路径:是从当前的路径出发,以当前的节点作为参照点进行定位。 这个相对路径是针对节点而言的,一般情况下,定位到一个节点 node ,则在这个node 上使用相对路径表达式  。比如 当前的节点 book , 若使用相对表达式: title@lang="en" 将选择 到title 节点

   e. 路径上下文( Context)

           路径上下文是指 当前的环境信息。在不同的上下文中,相同的 相对路径表达式所得到的结果可能不一样。从另外一个角度考虑, 上下文就是根据当前的位置出发,定位特定关系的节点。上下文,就描述了这种关系。

          XPath上下文基本有以下几种:

           当前节点(./):

           如./book   表示选择当前节点下的 book 节点集合

           父节点(../):

           如../book表示选择当前节点的父节点下的book节点集合

          根元素(/): 

          如/book表示选择从文档根节点下的book节点集合.

          根节点(/*):

          这里的*是代表所有节点,但是根元素只有一个,所以这里表示根节点。/*的返回结果和/book返回的结果一样都是book节点。

          递归下降(//): 

          如//book ,将从当前上下文下的所有book 元素都捞到,不管其有多少层。 

f. 运算符

运算符/特殊字符

说明

/

此路径运算符出现在模式开头时,表示应从根节点选择。

//

从当前节点开始递归下降,此路径运算符出现在模式开头时,表示应从根节点递归下降。

.

当前上下文。

..

当前上下文节点父级。

*

通配符;选择所有元素节点与元素名无关。(不包括文本,注释,指令等节点,如果也要包含这些节点请用node()函数)

@

属性名的前缀。

@*

选择所有属性,与名称无关。

:

命名空间分隔符;将命名空间前缀与元素名或属性名分隔。

( )

括号运算符(优先级最高),强制运算优先级。

应用筛选模式(即谓词,包括"过滤表达式"和"轴(向前/向后)")。

下标运算符;用于在集合中编制索引。

|

两个节点集合的联合,如://messages/message/to | //messages/message/cc

-

减法。

div,

浮点除法。

and, or

逻辑运算。

mod

求余。

not()

逻辑非

=

等于

!=

不等于

特殊比较运算符

< 或者 < <= 或者 <= > 或者 > >= 或者 >= 需要转义的时候必须使用转义的形式,如在XSLT中,而在XMLDOM的scripting中不需要转义。

 3. 实例解析 
以下面这个xml 文件进行解析,说明XPath 的一些用法
<?xml version="1.0" encoding="UTF-8"?>
<!-- edited with XMLSpy v2008 rel. 2 sp2 (http://www.altova.com) by Administrator -->
<?xml-stylesheet type="text/xsl" href="messages.xsl"?>
<messages>
	<message id="1">
		<sender>gukaitong@gmail.com</sender>
		<to>anonymous@gmail.com
				<group name="IT">
				<address>111@gmail.com</address>
				<address>222@gmail.com</address>
				<address>aaa@gmail.com</address>
				<address>bbb@gmail.com</address>
				<address>ccc@gmail.com</address>
			</group>
		</to>
		<subject>This is a sample</subject>
		<datetime date="2008-12-11" time="12:00:00" formatted="12/11/2008 12:00AM">2008-12-11T12:00:00Z</datetime>
		<body>
			Are you interested in? 
			<attachments>
				<attachment id="1">
					<message id="0">
						<sender>anonymous@gmail.com</sender>
						<to>gukaitong@gmail.com</to>
						<body>
We strongly recommend the following books
							<books xmlns:amazon="http://www.amazon.com/books/schema">
								<amazon:book>
									<name>Professional C# 2008 </name>
									<country>USA</country>
									<price>37.79</price>
									<year>2007</year>
								</amazon:book>
								<amazon:book>
									<name>Microsoft Visual C# 2008 Step by Step </name>
									<country>USA</country>
									<price>26.39 </price>
									<year>2008</year>
								</amazon:book>
								<amazon:book>
									<name>C# in Depth</name>
									<country>USA</country>
									<price>29.69 </price>
									<year>2006</year>
								</amazon:book>
								<amazon:book>
									<name>Thinking in Java</name>
									<country>USA</country>
									<price>23.69 </price>
									<year>2004</year>
								</amazon:book>
							</books>
						</body>
					</message>
				</attachment>
			</attachments>
		</body>
	</message>
	<message id="2">
		<sender>333@gmail.com</sender>
		<to>444@gmail.com</to>
		<subject>No title</subject>
		<body/>
	</message>
</messages>

/

Document Root文档根.

/*

选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点)

/node()

根元素下所有的节点(包括文本节点,注释节点等)

/text()

查找文档根节点下的所有文本节点

/messages/message

messages节点下的所有message节点

/messages/message1

messages节点下的第一个message节点

/messages/message1/self::node()

第一个message节点(self轴表示自身,node()表示选择所有节点)

/messages/message1/node()

第一个message节点下的所有子节点

/messages/message1/*last()

第一个message节点的最后一个子节点

/messages/message1/last()

Error,谓词前必须是节点或节点集

/messages/message1/node()last()

第一个message节点的最后一个子节点

/messages/message1/text()

第一个message节点的所有子节点

/messages/message1//text()

第一个message节点下递归下降查找所有的文本节点(无限深度)

/messages/message1 /child::node() /messages/message1 /node() /messages/messageposition()=1/node() //message@id=1 /node()

第一个message节点下的所有子节点

//message@id=1 //child::node()

递归所有子节点(无限深度)

//messageposition()=1/node()

选择id=1的message节点以及id=0的message节点

/messages/message1 /parent::*

Messages节点

/messages/message1/body/attachments/parent::node() /messages/message1/body/attachments/parent::* /messages/message1/body/attachments/..

attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。 (..也表示父节点. 表示自身节点)

//message@id=0/ancestor::*

Ancestor轴表示所有的祖辈,父,祖父等。 向上递归

//message@id=0/ancestor-or-self::*

向上递归,包含自身

//message@id=0/ancestor::node()

对比使用*,多一个文档根元素(Document root)

/messages/message1/descendant::node() //messages/message1//node()

递归下降查找message节点的所有节点

/messages/message1/sender/following::*

查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。

//message@id=1/sender/following-sibling::*

查找id=1的message节点的sender节点的所有后续的同级节点。

//message@id=1/datetime/@date

查找id=1的message节点的datetime节点的date属性

//message@id=1/datetime@date //message/datetimeattribute::date

查找id=1的message节点的所有含有date属性的datetime节点

//messagedatetime

查找所有含有datetime节点的message节点

//message/datetime/attribute::* //message/datetime/attribute::node() //message/datetime/@*

返回message节点下datetime节点的所有属性节点

//message/datetimeattribute::* //message/datetimeattribute::node() //message/datetime@* //message/datetime@node()

选择所有含有属性的datetime节点

//attribute::*

选择根节点下的所有属性节点

//message@id=0/body/preceding::node()

顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。) 注意:查找同级节点是顺序查找,而不是递归查找。

//message@id=0/body/preceding-sibling::node()

顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点)

//message@id=1//*namespace::amazon

查找id=1的所有message节点下的所有命名空间为amazon的节点。

//namespace::*

文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml)

//message@id=0//books/*local-name()='book'

选择books下的所有的book节点, 注意:由于book节点定义了命名空间<amazone:book>.若写成//message@id=0//books/book则查找不出任何节点。

//message@id=0//books/*local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema'

选择books下的所有的book节点,(节点名和命名空间都匹配)

//message@id=0//books/*local-name()='book'

选择year节点值>2006的book节点

//message@id=0//books/*local-name()='book'/year>2006

指示第一个book节点的year节点值是否大于2006. 返回xs:boolean: true

4. Dom 操作的应用

  XPath作为一种规范。在DOM树的解析上,很多工具都支持了XPath。

  a.IE 浏览器对XPath的支持

   低版本的IE可以使用以下代码:

<script language="javascript" type="text/javascript"> 

    var xmlDoc = new ActiveXObject("Microsoft.XMLDOM"); 

    xmlDoc.async="false"; 

    xmlDoc.load("messages.xml"); 

    xmlDoc.setProperty("SelectionLanguage", "XPath"); 

    var sPath = "/messages/message[1]//books/*[local-name()='book']"; 

    var bookNodes = xmlDoc.selectNodes(sPath); 

</script> 

      相关链接:Javascript XPath 实现      http://www.cnblogs.com/amylis_chen/archive/2012/10/03/2710770.html

 但是IE10不支持这种方式,可以使用谷歌的wgxpath开源工具

<html> <body>     <script src="wgxpath.install.js"></script>  <script type="text/javascript">         // 加載wgxpath       wgxpath.install();        function loadXMLDoc(dname) {    if (window.XMLHttpRequest)    {     xhttp = new XMLHttpRequest();    }    else    {     xhttp = new ActiveXObject("Microsoft.XMLHTTP");    }    xhttp.open("GET", dname, false);    xhttp.send("");    return xhttp.responseXML;   }

  xml = loadXMLDoc("books.xml");   path = "/bookstore/book";   // code for IE   if (window.ActiveXObject) {    //var nodes = xml.selectNodes(path);             var nodes =  document.evaluate(path, xml, null, XPathResult.ANY_TYPE,      null);             var iterator=nodes.iterateNext();             while(null!= iterator)             {              document.write(iterator.textContent);              document.write(" ");              iterator = nodes.iterateNext();                              }               }   // code for Mozilla, Firefox, Opera, etc.   else if (document.implementation     && document.implementation.createDocument) {    var nodes = xml.evaluate(path, xml, null, XPathResult.ANY_TYPE,      null);    var result = nodes.iterateNext();

   while (result) {     document.write(result.childNodes0.nodeValue);     document.write(" ");     result = nodes.iterateNext();    }   }  </script> </body> </html>

未完待续。

本文参考:XPath 详解,总结 :http://www.cnblogs.com/ktgu/archive/2009/04/16/1353246.html

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2014年02月18日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.XPath 的作用
  • 2.XPath 表达式
  •  3. 实例解析 
    • 以下面这个xml 文件进行解析,说明XPath 的一些用法
    • 4. Dom 操作的应用
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档