首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫之XPath

各位小伙伴好,很久很久没发过文章了[忙于工作,忙于学习],感觉特别对不起大家,今天开始重新更新!

看视频的小伙伴还是可以看的v.yingjoy.cn。

不过从今天开始本号主打技术知识分享(主要分享Python, 爬虫, 大数据, 算法, 机器/深度学习等内容)。

日后希望可以出一套爬虫教程,还期望大家支持我!

什么是XPath?

XPath(XML Path Language)是基于XML的语言,它主要用于确定XML文档中某位置的语言,是一个W3C标准。

在Python爬虫中我们经常使用XPath获取CSS Selector进行网页元素的定位,通常XPath可以比CSS更准确的获取到元素,CSS依赖着元素的CSS样式进行选择,通常会存在元素的CSS样式很少甚至不同,且同一样式在网页各处可能都会存在,造成我们获取到的元素不准确。

本文将代大家学习如何使用XPath来定位元素的位置,附带几个练习,多多练习就能掌握!

XPath的组成

在XPath中,有以下几种类型的节点:

元素

属性

文本

命名空间

处理指令

注释

文档节点(根节点)

举个例子:

这里的就是文档的根节点

就是根节点的子节点

是元素节点

lang="en" 是属性

XPath的语法

选取节点(这里与CSS进行对比):

参考: http://www.cnblogs.com/ziyunfei/archive/2012/10/05/2710631.html#class

实战

后面结合Beautiful Soup进行元素定位,很方便。

第一次排版很丑,,,以后会慢慢改进,还请见谅!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181106G1QWLA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券