专栏首页趣谈前端《前端5分钟》之使用解释器模式实现获取元素Xpath路径的算法

《前端5分钟》之使用解释器模式实现获取元素Xpath路径的算法

前端领域里基于javascript的设计模式和算法有很多,在很多复杂应用中也扮演着很重要的角色,接下来就介绍一下javascript设计模式中的解释器模式,并用它来实现一个获取元素Xpath路径的算法。

上期回顾

正文

1.解释器模式

对于一种语言,我们给出其文法表示形式(一种语言中的语法描述工具,用来定义语言的规则),并定义一种解释器,通过这种解释器来解释语言中定义的句子。

定义听起来可能比较抽象,举个例子比如我们常见的网站多语言,要实现多语言我们首先要预定语言的类型,提前设计不同语言的语料库,然后我们会根据配置和统一的变量规则来映射到不同语言。

2.元素的Xpath路径

XPath 用于在 XML 文档中通过元素和属性进行导航。虽然XPath 是用来查找XML节点,但同样可以用来查找HTML文档中的节点,因为HTML和XML结构类似。这里我们只考虑html,即元素在html页面中所处的路径。

那么如何快速获取元素的Xpath路径呢?其实也很简单,我们打开谷歌调试工具:

选中Copy XPath即可复制元素的Xpath路径。格式可能长这样:

//*[@id="juejin"]/div[2]/main/div/div[1]/article/div[1]

获取元素Xpath路径的应用场景很多,比如我们经常使用的python爬虫,利用爬虫框架可以通过Xpath路径很方便额控制页面中的某个dom节点,进而获取想要的数据和元素;又比如我们通过发送元素的Xpath路径给后端,后端可以统计某一功能的使用情况和交互数据;又比如分析用户在网站中浏览的热力分布图,路径画像等等。

3.js实现获取元素的Xpath路径

在实现之前,首先我们分析一下Xpath路径的结构,比如我们有一个页面,元素span的结构如下:

<!DOCTYPE html>
<html lang="en">
<head>
 <meta charset="UTF-8">
 <meta name="viewport" content="width=device-width, initial-scale=1.0">
 <meta http-equiv="X-UA-Compatible" content="ie=edge">
 <title>Document</title>
</head>
<body>
 <div>
 <span>我是徐小夕</span>
 </div>
</body>
</html>

那么我们的Xpath路径可能长这样:

HTML/BODY|HEAD/DIV/SPAN

从上面可以看出,我们的最右边一个元素都是目标元素,而最左边第一个元素都是最外层容器。要完成这个过程首先我们要通过元素的parentNode来获取当前元素的父元素,直到找到最顶层位置。但我们还需要注意的一点是,每找到上一层我们还要遍历该元素前面的兄弟元素previousSibling,如果这个兄弟元素名字和它后面的元素名字相同,则在元素名上+1.

第一步我们先实现一个遍历同级兄弟元素的方法getSameLevelName:

// 获取兄弟元素名称
function getSameLevelName(node){
    // 如果存在兄弟元素
    if(node.previousSibling) {
        let name = '',   // 返回的兄弟元素名称字符串
           count = 1,    // 紧邻兄弟元素中相同名称元素个数
           nodeName = node.nodeName,
           sibling = node.previousSibling;
        while(sibling){
            if(sibling.nodeType == 1 && sibling.nodeType === node.nodeType && sibling.nodeName){
                if(nodeName == sibling.nodeName){
                    name += ++count;
                }else {
                    // 重制相同紧邻节点名称节点个数
                    count = 1;
                    // 追加新的节点名称
                    name += '|' + sibling.nodeName.toUpperCase()
                }
            }
            sibling = sibling.previousSibling;
        }
        return name
    }else {
        // 不存在兄弟元素返回''
        return ''
    }
}

第二步,遍历文档树。

// XPath解释器
let Interpreter = (function(){
 return function(node, wrap){
 // 路径数组
 let path = [],
 // 如果不存在容器节点,默认为document
        wrap = wrap || document;
 // 如果当前节点等于容器节点
 if(node === wrap) {
 if(wrap.nodeType == 1) {
                path.push(wrap.nodeName.toUpperCase())
            }
 return path
        }
 // 如果当前节点的父节点不等于容器节点
 if(node.parentNode !== wrap){
 // 对当前节点的父节点执行遍历操作
            path = arguments.callee(node.parentNode, wrap)
        }
 // 如果当前节点的父元素节点与容器节点相同
 else {
            wrap.nodeType == 1 && path.push(wrap.nodeName.toUpperCase())
        }
 // 获取元素的兄弟元素的名称统计
 let siblingsNames = getSameLevelName(node)
 if(node.nodeType == 1){
            path.push(node.nodeName.toUpperCase() + sublingsNames)
        }
 // 返回最终的路径数组结果
 return path
    }
})()

有了这两个方法,我们就可以轻松获取元素的XPath路径啦,比如:

let path = Interpreter(document.querySelector('span'))
console.log(path.join('/'))

这样会返回开篇的一样的数据结构了.如:HTML/BODY|HEAD/DIV/SPAN

最后

如果想了解更多webpack,node,gulp,css3,javascript,nodeJS,canvas等前端知识和实战,欢迎在公众号《趣谈前端》加入我们一起学习讨论,共同探索前端的边界。

本文分享自微信公众号 - 趣谈前端(beautifulFront)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【技术分享】Solr DataImportHandler组件漏洞

    DataImportHandler是一个可选但使用广泛的模块,默认不启用,用于从数据库和其他源中提取数据,它有一个特性即整个DIH配置可以来自一个请求的“dat...

    Ramos
  • 【技术分享】赛门铁克邮件网关重置密码漏洞

    赛门铁克邮件网关10.6.6之前的所有版本,开启了重置密码功能(默认开启),可以伪造用户身份直接登录前后台。

    Ramos
  • JavaScript 中的位运算和权限设计

    在讲位运算之前,首先简单看下 JavaScript 中的 Number,下文需要用到。

    ConardLi
  • 三种Javascript深度学习框架介绍

    谈到机器学习,我们脑海首先蹦出的编程语言是什么?一定是python。其实除了python,Javascript也是不错的选择。都说现在是大前端时代,从移动开发、...

    云水木石
  • 异步网络下载案例

    异步网络下载案例(AsyncTask + 前台Service + OkHttp + Android8.0的Notification适配注意)

    凌川江雪
  • PHP教程系列5 - 最重要的助手Composer

    Composer是PHP的依赖管理工具,诞生的时间比较晚,在PHP5.3才正式发布。发布之后不温不火,支持的包也少,一度被认为是下一个pecl(比较失败的工具)...

    sibenx
  • 【从零学习OpenCV 4】多通道分离与合并

    经过几个月的努力,小白终于完成了市面上第一本OpenCV 4入门书籍《从零学习OpenCV 4》。为了更让小伙伴更早的了解最新版的OpenCV 4,小白与出版社...

    小白学视觉
  • 成为JavaScript开发者的小技巧总结

    如果你想要成为JavaScript开发人员,那么在跳入战斗之前你需要先考虑一些事情。无论你是在前端(用于Web浏览器或其他客户端)开发,还是使用Node.js工...

    青菜肉丸
  • json-server模拟后端接口

    作为一个前端,在实现项目功能的时候,需要在前端写一个静态的json数据,进行测试,但是有的时候,需要涉及到全模拟请求以及请求回来的过程,实现动态增删改查,这个时...

    祈澈菇凉
  • php系列一之composer的安装与使用

    简单来说,composer 之于 php 相当于 maven 和 gradle 之于 java,npm 之于 nodejs,pip 之于 python,go m...

    开发架构二三事

扫码关注云+社区

领取腾讯云代金券