腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >用于Scrapy的XPATH

问用于Scrapy的XPATH
EN

Stack Overflow用户

提问于 2012-09-19 18:23:02

回答 2查看 2.9K关注 0票数 0

所以我正在使用SCRAPY来刮掉一个网站的书籍。

我让爬虫工作了，它爬行得很好，但是当它在XPATH中使用select清理HTML时，它有点不能正常工作。现在，由于它是一个图书网站，我在每个页面上有近131本图书，他们的XPATH如下所示

例如，获取书名-

1st Book --- > /html/body/div/div[3]/div/div/div[2]/div/ul/li/a/span
2nd Book --->  /html/body/div/div[3]/div/div/div[2]/div/ul/li[2]/a/span 
3rd book --->  /html/body/div/div[3]/div/div/div[2]/div/ul/li[3]/a/span

DIV[]编号随着书的增加而增加。我不确定如何让它进入循环，这样它就可以捕获所有的标题。我必须为图片和作者名字做这件事，但我认为它将是相似的。只需要完成这个初始的。

提前感谢您的帮助。

xpath

scrapy

python

回答 2

Stack Overflow用户

发布于 2014-05-14 11:06:44

有几种不同的方法可以达到这个目的

选择多个节点的最佳方式是根据ids或类别进行选择。例如：

sel.xpath("//div@id='id'")

You可以像这样选择

for i in range(0，upto_num_of_divs)：list = sel.xpath("//div%s“%i)

您可以这样选择

对于范围(0，upto_num_of_divs) )中的i:upto_num_of_divs= sel.xpath("//divposition > =1 and position() < list

票数 2

Stack Overflow用户

发布于 2012-09-20 08:18:32

下面是一个如何解析示例html的示例：

lis = hxs.select('//div/div[3]/div/div/div[2]/div/ul/li')
for li in lis:
    book_el = li.select('a/span/text()')

通常，您可以执行诸如//div[@class="final-price"]//span之类的操作来获得一个xpath中所有跨度的列表。确切的表达式取决于您的html，这只是给您一个想法。

否则，上面的代码应该可以解决这个问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12500624

复制

Scrapy中Xpath的使用

html scrapy href xpath 对象

请注意，本文编写于 990 天前，最后修改于 990 天前，其中某些信息可能已经过时。

曼亚灿

2023/05/17

9300

Scrapy框架中的xpath选择

xslt & xpath 正则表达式 scrapy

不同于我们普通爬虫获取xpath,scrapy获得xpath对象获取他的值语法一.xpath对象获取值 xpath对象..extract() 二.Scrapy框架独有的xpath取值方式利用hre

小小咸鱼YwY

2020/06/19

9910

scrapy选择器xpath

其他

Scrapy提取数据有自己的一套机制，它们被称作选择器(seletors),通过特定的Xpath或者css表达式来"选择"html文件中的某个部分。

py3study

2018/08/02

6040

Scrapy实战5：Xpath实战训练

xslt & xpath python 命令行工具 ide

今天给大家分享的是，如何在cmd和pycharm中启动自己的spider以及Xpath的基本介绍，并利用Xpath抓取伯乐在线单篇文章基本信息。

龙哥

2020/02/12

7650

【python爬虫】scrapy框架笔记（一）：创建工程，使用scrapy shell，xpath

scrapy xslt & xpath shell 爬虫 http

scrapy是个好东西，它的官方文档写的很详细，很适合入门。链接：http://scrapy-chs.readthedocs.io/zh_CN/1.0/index.html

蛮三刀酱

2019/03/26

6280

【python爬虫】scrapy框架笔记（一）：创建工程，使用scrapy shell，xpath

Scrapy框架| 选择器-Xpath和CSS的那些事

正则表达式 xslt & xpath css xml html

这次接着上一篇文章来讲Scrapy框架，这次讲的是Scrapy框架里面提供的两种数据提取机制Xpath和CSS，其实除了这两种，我们还可以借助第三方库来实现数据的提取，例如：BeautifulSoup（这个在我的爬虫系列文章中有写过）和lxml（Xml解析库），Scrapy选择器是基于lxml库之上的，所以很多地方都是和lxml相似的。

Python进击者

2019/06/21

1.3K0

scrapy框架精讲！如何在最短的时间内学会xpath语法

scrapy xml

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

云飞

2018/09/13

6790

python网络爬虫（14）使用Scrapy搭建爬虫框架

scrapy 爬虫命令行工具 python 文件存储

爬虫框架也许能简化工作量，提高效率等。scrapy是一款方便好用，拓展方便的框架。

嘘、小点声

2019/07/31

6410

xpath路径的写法

html 编程算法 xslt & xpath

3.查找页面上第一个form元素内的直接子input元素(即只包括form元素的下一级input元素，使用绝对路径表示，单/号)：//form[1]/input

小小咸鱼YwY

2019/07/24

1.9K0

scrapy爬取1024种子

爬虫 scrapy

1024不必多说,老司机都懂,本文介绍scrapy爬取1024种子,代码不到50行!Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。关于scrapy用下图来说明即可(图片来自https://cuiqingcai.com/3472.html )

LiosWong

2019/03/14

3K0

(原创)七夜在线音乐台开发第三弹爬虫篇

爬虫 dns 存储

上一篇咱们讲到了七夜音乐台的需求和所需要的技术。咱们今天就讲一下爬虫，为什么要讲爬虫，因为音乐台的数据源需要通过爬虫来获取，不可能手动来下载。下图是一个网络爬虫的基本框架: 网络爬虫的基本工作流程如下

七夜安全博客

2018/06/26

1.1K0

Python——Scrapy初学

python 爬虫 scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。Scrapy最初是为了页面抓取（更确切来说, 网络抓取）所设计的，也

闪电gogogo

2018/01/08

1.9K0

Scrapy 爬虫实例（一）

scrapy

在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:

HLee

2021/06/10

6010

Python 爬虫之Scrapy《中》

xslt & xpath scrapy shell http windows

Scrapy数据解析主要有两个大类：xpath() 和 css() ，今天这篇文章主要讲解xpath如何解析我们想获取的页面数据。同时Scrapy还给我们提供自己的数据解析方法，即Selector（选择器），Selector是一个可独立使用的模块，我们可以用Selector类来构建一个选择器对象，然后调用它的相关方法如xpaht(), css()等来提取数据，它的常用写法如下：

Wu_Candy

2022/07/04

8640

Python最火爬虫框架Scrapy入门与实践，豆瓣电影 Top 250 数据采集

scrapy xslt & xpath python 爬虫 php

Python爬虫框架Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

二爷

2020/07/22

2.4K0

Python最火爬虫框架Scrapy入门与实践，豆瓣电影 Top 250 数据采集

XML 的 XPath 语法

其他

2018-06-24 11:43

walterlv

2018/09/18

1.1K0

chrome xpath的使用

爬虫人工智能

最近研究爬虫的时候，发现chrome也支持xpath,用法如下，在console中输入

用户2936342

2018/08/27

1.1K0

Python网络爬虫（六）- Scrapy框架1.Scrapy2.安装和配置3.安装过程常见错误4.代码操作 - 创建一个Scrapy项目5.Scrapy框架进阶 - 深度爬虫

python 爬虫 scrapy

Scrapy Engine(Scrapy核心) 负责数据流在各个组件之间的流。Spiders(爬虫)发出Requests请求，经由Scrapy Engine(Scrapy核心) 交给Scheduler(调度器)，Downloader(下载器)Scheduler(调度器) 获得Requests请求，然后根据Requests请求，从网络下载数据。Downloader(下载器)的Responses响应再传递给Spiders进行分析。根据需求提取出Items，交给Item Pipeline进行下载。Spiders和Item Pipeline是需要用户根据响应的需求进行编写的。除此之外，还有两个中间件，Downloaders Mddlewares和Spider Middlewares，这两个中间件为用户提供方面，通过插入自定义代码扩展Scrapy的功能，例如去重等。

Python攻城狮

2018/08/23

1.7K0

Python网络爬虫（六）- Scrapy框架1.Scrapy2.安装和配置3.安装过程常见错误4.代码操作 - 创建一个Scrapy项目5.Scrapy框架进阶 - 深度爬虫

Python网络爬虫（四）- XPath1.XPath2.XPath在python中的应用

python 爬虫 scrapy

XPath 即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。它使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 XPath语法

Python攻城狮

2018/08/23

1.4K0

Python网络爬虫（四）- XPath1.XPath2.XPath在python中的应用

Python爬虫项目--爬取链家热门城市

python scrapy 爬虫命令行工具 tcp/ip

本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途)

py3study

2020/01/20

7640

相似问题

用于带有atom名称空间的scrapy的Xpath

113

关于XPath选择器的问题(用于Scrapy)

118

Scrapy xpath语法

Python Scrapy Xpath？

scrapy xpath异常

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问用于Scrapy的XPATH
EN

回答 2

Stack Overflow用户

Stack Overflow用户

用于带有atom名称空间的scrapy的Xpath

关于XPath选择器的问题(用于Scrapy)

Scrapy xpath语法

Python Scrapy Xpath？

scrapy xpath异常

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于Scrapy的XPATHEN

回答 2

Stack Overflow用户

Stack Overflow用户

用于带有atom名称空间的scrapy的Xpath

关于XPath选择器的问题(用于Scrapy)

Scrapy xpath语法

Python Scrapy Xpath？

scrapy xpath异常

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于Scrapy的XPATH
EN