首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >用于Scrapy的XPATH

用于Scrapy的XPATH
EN

Stack Overflow用户
提问于 2012-09-19 18:23:02
回答 2查看 2.9K关注 0票数 0

所以我正在使用SCRAPY来刮掉一个网站的书籍。

我让爬虫工作了,它爬行得很好,但是当它在XPATH中使用select清理HTML时,它有点不能正常工作。现在,由于它是一个图书网站,我在每个页面上有近131本图书,他们的XPATH如下所示

例如,获取书名-

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
1st Book --- > /html/body/div/div[3]/div/div/div[2]/div/ul/li/a/span
2nd Book --->  /html/body/div/div[3]/div/div/div[2]/div/ul/li[2]/a/span 
3rd book --->  /html/body/div/div[3]/div/div/div[2]/div/ul/li[3]/a/span 

DIV[]编号随着书的增加而增加。我不确定如何让它进入循环,这样它就可以捕获所有的标题。我必须为图片和作者名字做这件事,但我认为它将是相似的。只需要完成这个初始的。

提前感谢您的帮助。

EN

回答 2

Stack Overflow用户

发布于 2014-05-14 11:06:44

有几种不同的方法可以达到这个目的

  1. 选择多个节点的最佳方式是根据ids或类别进行选择。例如:

sel.xpath("//div@id='id'")

  • You可以像这样选择

for i in range(0,upto_num_of_divs):list = sel.xpath("//div%s“%i)

  • 您可以这样选择

对于范围(0,upto_num_of_divs) )中的i:upto_num_of_divs= sel.xpath("//divposition > =1 and position() < list

票数 2
EN

Stack Overflow用户

发布于 2012-09-20 08:18:32

下面是一个如何解析示例html的示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
lis = hxs.select('//div/div[3]/div/div/div[2]/div/ul/li')
for li in lis:
    book_el = li.select('a/span/text()')

通常,您可以执行诸如//div[@class="final-price"]//span之类的操作来获得一个xpath中所有跨度的列表。确切的表达式取决于您的html,这只是给您一个想法。

否则,上面的代码应该可以解决这个问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12500624

复制
相关文章
Scrapy中Xpath的使用
请注意,本文编写于 990 天前,最后修改于 990 天前,其中某些信息可能已经过时。
曼亚灿
2023/05/17
9300
Scrapy框架中的xpath选择
不同于我们普通爬虫获取xpath,scrapy获得xpath对象获取他的值语法 一.xpath对象获取值 xpath对象..extract() 二.Scrapy框架独有的xpath取值方式 利用hre
小小咸鱼YwY
2020/06/19
9910
scrapy选择器xpath
Scrapy提取数据有自己的一套机制,它们被称作选择器(seletors),通过特定的Xpath或者css表达式来"选择"html文件中的某个部分。
py3study
2018/08/02
6040
Scrapy实战5:Xpath实战训练
    今天给大家分享的是,如何在cmd和pycharm中启动自己的spider以及Xpath的基本介绍,并利用Xpath抓取伯乐在线单篇文章基本信息。
龙哥
2020/02/12
7650
【python爬虫】scrapy框架笔记(一):创建工程,使用scrapy shell,xpath
scrapy是个好东西,它的官方文档写的很详细,很适合入门。链接:http://scrapy-chs.readthedocs.io/zh_CN/1.0/index.html
蛮三刀酱
2019/03/26
6280
【python爬虫】scrapy框架笔记(一):创建工程,使用scrapy shell,xpath
Scrapy框架| 选择器-Xpath和CSS的那些事
这次接着上一篇文章来讲Scrapy框架,这次讲的是Scrapy框架里面提供的两种数据提取机制Xpath和CSS,其实除了这两种,我们还可以借助第三方库来实现数据的提取,例如:BeautifulSoup(这个在我的爬虫系列文章中有写过)和lxml(Xml解析库),Scrapy选择器是基于lxml库之上的,所以很多地方都是和lxml相似的。
Python进击者
2019/06/21
1.3K0
scrapy框架精讲!如何在最短的时间内学会xpath语法
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
云飞
2018/09/13
6790
python网络爬虫(14)使用Scrapy搭建爬虫框架
爬虫框架也许能简化工作量,提高效率等。scrapy是一款方便好用,拓展方便的框架。
嘘、小点声
2019/07/31
6410
xpath路径的写法
3.查找页面上第一个form元素内的直接子input元素(即只包括form元素的下一级input元素,使用绝对路径表示, 单/号)://form[1]/input
小小咸鱼YwY
2019/07/24
1.9K0
scrapy爬取1024种子
1024不必多说,老司机都懂,本文介绍scrapy爬取1024种子,代码不到50行!Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 关于scrapy用下图来说明即可(图片来自https://cuiqingcai.com/3472.html )
LiosWong
2019/03/14
3K0
scrapy爬取1024种子
(原创)七夜在线音乐台开发 第三弹 爬虫篇
上一篇咱们讲到了七夜音乐台的需求和所需要的技术。咱们今天就讲一下爬虫,为什么要讲爬虫,因为音乐台的数据源需要通过爬虫来获取,不可能手动来下载。下图是一个网络爬虫的基本框架: 网络爬虫的基本工作流程如下
七夜安全博客
2018/06/26
1.1K0
Python——Scrapy初学
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。Scrapy最初是为了页面抓取(更确切来说, 网络抓取)所设计的,也
闪电gogogo
2018/01/08
1.9K0
Python——Scrapy初学
Scrapy 爬虫实例(一)
在开始爬取之前,您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中,运行下列命令:
HLee
2021/06/10
6010
Scrapy 爬虫实例(一)
Python 爬虫之Scrapy《中》
Scrapy数据解析主要有两个大类:xpath() 和 css() ,今天这篇文章主要讲解xpath如何解析我们想获取的页面数据。同时Scrapy还给我们提供自己的数据解析方法,即Selector(选择器),Selector是一个可独立使用的模块,我们可以用Selector类来构建一个选择器对象,然后调用它的相关方法如xpaht(), css()等来提取数据,它的常用写法如下:
Wu_Candy
2022/07/04
8640
Python 爬虫之Scrapy《中》
Python最火爬虫框架Scrapy入门与实践,豆瓣电影 Top 250 数据采集
Python爬虫框架Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
二爷
2020/07/22
2.4K0
Python最火爬虫框架Scrapy入门与实践,豆瓣电影 Top 250 数据采集
XML 的 XPath 语法
2018-06-24 11:43
walterlv
2018/09/18
1.1K0
chrome xpath的使用
最近研究爬虫的时候,发现chrome也支持xpath,用法如下,在console中输入
用户2936342
2018/08/27
1.1K0
chrome xpath的使用
Python网络爬虫(六)- Scrapy框架1.Scrapy2.安装和配置3.安装过程常见错误4.代码操作 - 创建一个Scrapy项目5.Scrapy框架进阶 - 深度爬虫
Scrapy Engine(Scrapy核心) 负责数据流在各个组件之间的流。Spiders(爬虫)发出Requests请求,经由Scrapy Engine(Scrapy核心) 交给Scheduler(调度器),Downloader(下载器)Scheduler(调度器) 获得Requests请求,然后根据Requests请求,从网络下载数据。Downloader(下载器)的Responses响应再传递给Spiders进行分析。根据需求提取出Items,交给Item Pipeline进行下载。Spiders和Item Pipeline是需要用户根据响应的需求进行编写的。除此之外,还有两个中间件,Downloaders Mddlewares和Spider Middlewares,这两个中间件为用户提供方面,通过插入自定义代码扩展Scrapy的功能,例如去重等。
Python攻城狮
2018/08/23
1.7K0
Python网络爬虫(六)- Scrapy框架1.Scrapy2.安装和配置3.安装过程常见错误4.代码操作 - 创建一个Scrapy项目5.Scrapy框架进阶 - 深度爬虫
Python网络爬虫(四)- XPath1.XPath2.XPath在python中的应用
XPath 即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。它使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 XPath语法
Python攻城狮
2018/08/23
1.4K0
Python网络爬虫(四)- XPath1.XPath2.XPath在python中的应用
Python爬虫项目--爬取链家热门城市
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途)
py3study
2020/01/20
7640

相似问题

用于带有atom名称空间的scrapy的Xpath

113

关于XPath选择器的问题(用于Scrapy)

118

Scrapy xpath语法

23

Python Scrapy Xpath?

12

scrapy xpath异常

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文