专栏首页沈唁志Python爬虫Chrome网页解析工具-XPath Helper

Python爬虫Chrome网页解析工具-XPath Helper

之前就说过Python爬虫中Xpath的用法,相信每一个写爬虫、或者是做网页分析的人,都会因为在定位、获取XPath路径上花费大量的时间,在没有这些辅助工具的日子里,我们只能通过搜索HTML源代码,定位一些id,class属性去找到对应的位置,非常的麻烦,今天推荐一款插件Chrome中的一种爬虫网页解析工具:XPath Helper,使用了一下感觉很方便,所以希望能够帮助更多的Python爬虫爱好者和开发者

插件简介

XPath Helper插件是一款免费的Chrome爬虫网页解析工具,可以帮助用户解决在获取XPath路径时无法正常定位等问题

安装了XPath Helper后就能轻松获取HTML元素的XPath,该插件主要能帮助我们在各类网站上查看的页面元素来提取查询其代码,同时我们还能对查询出来的代码进行编辑,而编辑出的结果将立即显示在旁边的结果框中,也很方便的帮助我们判断我们的XPath语句是否书写正确

安装插件

1、如果你能够打开Chrome的网上应用店,直接搜索XPath Helper就能找到这个插件,直接点击“添加至chrome”即可

2、你没工具去打开Chrome的网上应用店的话,我将这个插件上传到了百度云网盘,你可以直接下载,将其直接拖拽到浏览器的“扩展程序”页面(设置-扩展程序)即 chrome://extensions 页面

3、或者你直接在Github上进行下载,使用开发者模式进行打包,然后进行安装即可

使用插件

1、打开某个网站,我这以本站首页为例,获取腾讯云的这篇文章的标题,打开审查元素,找到拷贝目标元素的XPath

获取目标元素的XPath

2、直接使用快捷键Ctrl+Shift+X,唤出来XPath辅助控制台,将这段XPath粘贴到左边的Query文本框,右边Result文本框就会输入获取的值,括号内是对应匹配到的次数,同时对应的值会显示米黄色

3、至此,你就可以在Query框中输入相应的XPath进行调试,提取到的结果都会被显示在旁边的Result文本框中

注意事项

虽然XPath Helper插件使用非常方便,但它也不是万能的,有两个问题:

1、XPath Helper 自动提取的 XPath 都是从根路径开始的,这几乎必然导致 XPath 过长,不利于维护,我们可以使用//来处理

2、当提取多条的列表数据时,XPath Helper是使用的下标来分别提取的列表中的每一条数据,这样并不适合程序批量处理,我们还是需要修改一些类似于*的标记来匹配任何元素节点等

合理的使用Xpath,还是能帮我们省下很多时间的,更多XPath语法可以看我之前的文章Python爬虫之XPath语法和lxml库的用法或者参考W3C

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用 Loader-Helper 安装向导安装 Swoole Loader 扩展

    Swoole Compiler 是一款最佳的 PHP 代码加密解决方案,将 PHP 程序源代码编译为二进制指令,并进行加密

    沈唁
  • 记我一次更改网站信息|公安备案通过

    沈唁
  • 怎么快速集成QQ微博等第三方授权登录功能?

    日常项目中经常会用到QQ授权登录或者微信授权登录,方便了用户,否则需要手机验证码等等的操作,授权登录只需要一键操作

    沈唁
  • 前端中返回顶部功能

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    菲宇
  • 谈谈snprintf

    众所周知,sprintf不能检查目标字符串的长度,可能造成众多安全问题,所以都会推荐使用snprintf. snprintf(_snprintf)的声明是这样...

    阳光岛主
  • Swift4 String的用法

    剑行者
  • zookeeper 分布式锁服务

    分布式锁服务在大家的项目中或许用的不多,因为大家都把排他放在数据库那一层来挡。当大量的行锁、表锁、事务充斥着数据库的时候。一般web应用很多的瓶颈都在数据库上,...

    张善友
  • day62-Django基础-ORM对多对+模板语言{%for%}{%if%}

    少年包青菜
  • 解决centos7启动zookeeper 报错

    启动zookeeper报错 Failed to start zookeeper.service: Unit not found.

    Antler
  • js点击按钮返回页面顶部

    在进行官网一类的网站建设时,经常会出现页面太长的现象,当用户滚动滚动条到最底部时返回顶部需要滚动多下滚动条,用户体验相当不好,于是就出现了当滚动条滚动到一定位置...

    无邪Z

扫码关注云+社区

领取腾讯云代金券