在scrapy中进行递归抓取时，如何从父url和关联子url的多个节点中提取信息？

在scrapy中进行递归抓取时，可以通过使用XPath或CSS选择器从父URL和关联子URL的多个节点中提取信息。

使用XPath提取信息：
- 首先，使用XPath选择器选择父URL的节点，例如使用response.xpath('//parent_node')。
- 然后，使用XPath选择器选择关联子URL的节点，例如使用response.xpath('//parent_node/child_node')。
- 最后，使用.extract()方法提取节点中的文本信息，例如使用response.xpath('//parent_node/child_node').extract()。

使用CSS选择器提取信息：
- 首先，使用CSS选择器选择父URL的节点，例如使用response.css('parent_node')。
- 然后，使用CSS选择器选择关联子URL的节点，例如使用response.css('parent_node child_node')。
- 最后，使用.extract()方法提取节点中的文本信息，例如使用response.css('parent_node child_node').extract()。

需要注意的是，XPath和CSS选择器的语法略有不同，具体使用哪种选择器取决于个人偏好和网页结构。

以下是一个示例代码，演示如何在scrapy中从父URL和关联子URL的多个节点中提取信息：

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 提取父URL的信息
        parent_info = response.xpath('//parent_node').extract()

        # 提取关联子URL的信息
        child_info = response.xpath('//parent_node/child_node').extract()

        # 处理提取到的信息，例如保存到数据库或进行进一步处理

        # 递归抓取关联子URL
        for url in response.xpath('//parent_node/child_url').extract():
            yield scrapy.Request(url, callback=self.parse)

在上述示例代码中，parse方法中使用XPath选择器提取了父URL和关联子URL的信息，并进行了相应的处理。同时，通过递归抓取关联子URL，实现了从多个节点中提取信息的功能。

对于scrapy的更多用法和详细介绍，可以参考腾讯云的相关产品文档：腾讯云Scrapy产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

在scrapy中进行递归抓取时，如何从父url和关联子url的多个节点中提取信息？

、

父url有多个节点(引用)，每个父节点都有子url (作者信息)。由于scrapy的异步性质，我面临着将引用链接到作者信息的问题。我如何解决这个问题，这是到目前为止的代码。import scrapy name = 'quotes1&#x

浏览 28提问于2021-11-22得票数 2

回答已采纳

1回答

Scrapy不爬行于start中包含的数据。

、、

我试图抓取整个网站使用刮刮。根据scarpy的文件因此，根据这个定义，scrapy应该遍历start_urls下提到的页面上的

浏览 3提问于2014-10-29得票数 2

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

在Scrapy [Python]中使用递归蜘蛛

、、、、

简介你好，我用Scrapy来获取雅虎答案中的数据。我的成就是把所有的问题和答案都集中在一个精确的部分。--我尝试使用scrapy和selenium --首先，我尝试在一节中记录一个问题列表，这个列表是在蜘蛛类中记忆的。之后，我使用For循环来解析每个页面。当我尝试使用页面右侧下面链接上的"Next“链接中</e

浏览 2提问于2015-10-14得票数 0

回答已采纳

1回答

Scrapy:如何使条件(存在或不存在) XPATH在不存在时返回值？

、、、、

我正在寻求从网站上抓取特定的产品信息。然而，我想要的XPATH条件之一并不是出现在每个产品的页面上。(虽然所有产品都有名称、价格等，但有些产品没有显示推荐的年龄)。然而，当scrapy在shell中写入甚至返回数据时，这不再是一个问题，它不再按照与start-url列表相关联的顺序排列，也不会考虑某些url中缺少数据的<

浏览 0提问于2013-06-22得票数 2

回答已采纳

1回答

如何从以前抓取的urls中抓取图像(嵌套urls)

、

我使用Scrapy来抓取网站上的项目。有一堆信息，包括图像urls。你能帮我弄清楚如何从这些urls (data["image_urls"])中提取图像吗？我知道我必须扩展媒体管道，因为Scrapy不管理嵌套的urls，但我在这个过程中迷失了方向。:attr(src)").extract_first()

浏览 5提问于2019-07-19得票数 0

回答已采纳

2回答

查找二叉树的深度-在哪里存储/更新深度？

、

我找到了一个找到二叉树最大深度的解决方案： def __init__(self, val=0, left=None, right=None): r=self.maxDepth(root.right)虽然我理解在递归方面发生了什么，但我没有看到每个递归调用是如何记录深度的--深度存储在哪里？

浏览 1提问于2021-07-02得票数 1

回答已采纳

2回答

如何从自描述REST中对嵌套资源进行初始请求

、、、

API设计使用API的应用程序具有用于列出模块、查看特定模块的详细信息和查看特定资源的视图。应用程序的工作方式是将所有加载的数据保存在一个商店中。问题是：我的问题是，如果用户

浏览 2提问于2017-06-18得票数 1

回答已采纳

12回答

按顺序抓取URL

、、、、

所以，我的问题相对简单。我有一个爬虫爬行多个网站，我需要它来返回的顺序，我写在我的代码中的数据。它张贴在下面。from scrapy.spider import BaseSpiderfrom mlbodds.items我尝试将调度程序的顺序从DFO改为BFO，以防这是问题所在，但这并没有改变任何事情。

浏览 26提问于2011-07-04得票数 27

回答已采纳

1回答

使用异步调用进行分层数据检索和显示的模式？

、、、、

，因此有一个关联的回调xxx_Loaded()首先，我应该把内存中的树数据构建成一个结构

浏览 0提问于2011-05-20得票数 0

1回答

使用Scrapy将多个页面的结果抓取到一个项中

、、

如何使用Scrapy将多个页面的结果抓取到一个项目中？具体实例idpriourls最后，我希望对结果项进行筛选，以便对于每个id，只保留具有最

浏览 0提问于2022-10-24得票数 1

回答已采纳

1回答

用于层次数据的单个表或多个表

、、、

每个节点可以有多个父或子节点。不会有流通关系(谢天谢地)。只有一些SubSubCategory可能属于多个SubCategory。此pre_calculated_index是在向一个节点添加子节点时计算的，因此当您检索树时，只需按此字段进行排序，并避免递归查询。无论如何，我的老板认为这样的实施并不理想。他<e

浏览 0提问于2019-03-05得票数 6

回答已采纳

1回答

检测线程树何时完成

、、

我正在创建一个简单的网络蜘蛛。它所做的就是接受一个URL，下载HTML并提取剩余的URL。然后，它对每个新URL重复该过程。我还确保不会访问同一个URL两次，并限制并发下载的数量。在每个唯一的URL用完之后(可能会运行几天、几周或者直到我死了之后)，我想执行一个操作，比如更新UI或简单地退出应用程序。这个线程问题解决了吗？一种想

浏览 0提问于2012-05-24得票数 1

回答已采纳

2回答

提高抓取爬虫的速度

CONCURRENT_REQUESTS = 50AUTOTHROTTLE_ENABLED = False在检查了之后，我的抓取器仍然很慢，需要大约25个小时来抓取12000个页面(谷歌，亚马逊)，我使用Crawlera，我还可以做更多的事情来提高速度吗?当CONCURRENT_REQUESTS =50时，这是否意味着我有50个类似请求的线程？

浏览 0提问于2019-09-08得票数 0

2回答

如何使用Scrapyd和ScrapydWeb在集群中分布爬虫？

、、、

我在一个使用Scrapy的爬虫项目中工作，我需要将我的爬虫分布在集群中的不同节点上，以使过程更快。问题是爬行是并行运行的(内容是由两台机器获取的)，我的目的是以一种分布式的方式进行爬行，以最小化爬行时间。有人能帮我吗？提前谢谢你。

浏览 6提问于2020-05-07得票数 2

2回答

Tripadvisor上的抓取、爬行评论:提取更多的酒店和用户信息

、、

需要从tripAdvisor中提取更多信息 item = TripadvisorItem() 在tripAdvisor的每一家酒店，都有酒店的身份证号码。这家酒店大约80075英镑：

浏览 9提问于2015-06-30得票数 1

回答已采纳

2回答

难题解算器- TreeNode帮助

、、、、

我在试着写一个解题应用程序。我需要找出它需要多少步，以及有多少解决方案。我知道我需要创建一个TreeNode，从根(球员的开始位置)开始，并为每个节点提供可能移动的子节点，直到计算出所有可能的移动。然后可以收集拼图统计数据。可能的解决方案<e

浏览 0提问于2011-08-31得票数 3

回答已采纳

1回答

带有Scrapy的递归web爬行

、

我想从阿莱格罗-波兰ebay上抓取和报废有关汽车价格的数据。我的项目的第一阶段是下载汽车品牌和子类别的列表(我想尽可能深入到子类别)和报价数量。有时应该停止在主页，有时深入和停止在死胡同的子类别。提供的数目我对4有问题。request = scrapy.Request(la[

浏览 3提问于2015-11-05得票数 1

回答已采纳

6回答

爬虫vs刮板

、、

有人能在范围和功能方面区分爬虫和刮板吗？

浏览 0提问于2010-07-09得票数 71

回答已采纳

5回答

SimpleXML循环工作，但中途突破

、、

我有一个循环，遍历youtube提要的结果，它运行良好，但是到了最后，它失败了，出错了：我的代码是： $watch = (string)$media->group->player->attributes()->url<

浏览 4提问于2010-07-14得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在scrapy中进行递归抓取时，如何从父url和关联子url的多个节点中提取信息？

相关·内容

在scrapy中进行递归抓取时，如何从父url和关联子url的多个节点中提取信息？

Scrapy不爬行于start中包含的数据。

BeautifulSoup和Scrapy crawler有什么区别？

在Scrapy [Python]中使用递归蜘蛛

Scrapy:如何使条件(存在或不存在) XPATH在不存在时返回值？

如何从以前抓取的urls中抓取图像(嵌套urls)

查找二叉树的深度-在哪里存储/更新深度？

如何从自描述REST中对嵌套资源进行初始请求

按顺序抓取URL

使用异步调用进行分层数据检索和显示的模式？

使用Scrapy将多个页面的结果抓取到一个项中

用于层次数据的单个表或多个表

检测线程树何时完成

提高抓取爬虫的速度

如何使用Scrapyd和ScrapydWeb在集群中分布爬虫？

Tripadvisor上的抓取、爬行评论:提取更多的酒店和用户信息

难题解算器- TreeNode帮助

带有Scrapy的递归web爬行

爬虫vs刮板

SimpleXML循环工作，但中途突破

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐