文章/答案/技术大牛

发布

Scrapy不想转到下一个url

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取数据。它提供了强大的工具和机制，使开发者能够灵活地定义爬取规则和处理逻辑。

当使用Scrapy进行网页爬取时，如果不想转到下一个URL，可以通过以下方式实现：

在Spider中使用dont_filter参数：在编写Spider时，可以在start_requests方法中设置dont_filter=True，这样Scrapy将不会对请求的URL进行去重和过滤，即使该URL已经被爬取过，也会重新发送请求。
在Spider中使用return语句：在处理爬取到的页面时，可以在回调函数中使用return语句，将不想转到下一个URL的请求直接返回，从而终止该请求的继续处理。
在Downloader Middleware中使用process_request方法：可以编写自定义的Downloader Middleware，在其中的process_request方法中判断请求的URL是否需要继续处理，如果不需要，则直接返回None，从而终止该请求的继续处理。

需要注意的是，以上方法仅适用于不想转到下一个URL的特定情况，如果需要在整个爬取过程中完全停止爬取，可以使用Scrapy提供的信号机制，例如在Spider中监听spider_closed信号，并在回调函数中调用crawler.engine.close_spider(spider, 'canceled')来停止爬取。

Scrapy的优势在于其高度可定制性和灵活性，可以根据具体需求进行定制开发。它适用于各种场景，包括数据采集、搜索引擎、数据挖掘等。对于Scrapy的学习和使用，推荐使用腾讯云的云服务器（ECS）作为爬虫的运行环境，同时可以结合腾讯云的对象存储（COS）来存储爬取到的数据。

更多关于Scrapy的详细介绍和使用方法，可以参考腾讯云的产品文档：Scrapy产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

Scrapy不想转到下一个url

、

我在强迫scrapy转到另一个页面时遇到了问题。我正在设法弄到不同月份的所有歌剧时间表。我需要的每个地址看起来像这样："" +月度名称from ..items import ShowItem, ShowItemLoader from scrapy.selector import Ht

浏览 0提问于2017-11-21得票数 0

回答已采纳

1回答

说明性场景:构建一个Scrapy蜘蛛是为了从各种餐厅网站的start_urls列表中刮取餐厅菜单。一旦找到每一家餐厅的菜单，就不再需要继续在特定的餐馆网站上爬行。蜘蛛应该(理想情况下)中止start_url的队列，然后转到下一家餐厅。一旦满足了停止条件，是否有办法阻止Scrapy爬行其请求队列的其余部分*每个start_url*？我不认为CloseSpider异常是适当的，因为我不想停止整个蜘蛛，只是当前start_url的队列，然后再转到下

浏览 2提问于2014-01-31得票数 2

回答已采纳

3回答

Scrapy:对同一个URL运行多个嵌套搜索

、

我对Python非常陌生，对Scrapy非常陌生。我正在尝试构建一个蜘蛛，它将转到给定的URL，并在该站点中运行多个嵌套搜索。存储基本URL ->家庭->厨房->电器:解析结果寻找“搅拌器”。存储基本URL ->家庭->厨房->电器:解析结果寻找“水壶”。我可以将搜索数据加载到我的CrawlSpider中，并告诉Scrapy运行所有这些搜索，但是Scrapy看到起始URL是相同的，所以它只运行第一个请求，并将所

浏览 2提问于2014-02-26得票数 1

1回答

Scrapy FormRequest不执行post请求

我不想这样 return [FormRequest.from_response(response, 因为登录表单没有<form>标记所以我试着： return scrapy.FormRequest(url="formdata={}, return [FormRequest(url(url="请求，代码也没有转到after_post 2020-04-07 10:

浏览 23提问于2020-04-07得票数 0

1回答

Scrapy不想转到下一页

、、

现在我遇到了另一个问题:它不想转到下一页：from scrapy.selector import Selectorpage_list_urls = s.xpath('///*[@id="results"]/ul/li/div[1]/h4/a[2]/@href').extract() f

浏览 2提问于2017-07-08得票数 0

1回答

刮伤:在302的情况下如何停止请求？

、

我正在使用Scrapy2.4从start_urls列表中抓取特定的页面。每个URL都有6个结果页面，因此我请求它们全部。在这种情况下，我不想遵循这302，也不想继续查找页3,4,5,6，而是继续到列表中的下一个URL。 for url in self.start_urls: for i in range(1,

浏览 3提问于2020-12-23得票数 2

回答已采纳

1回答

如何打开一个包含urls列表的大型csv并抓取这些urls？

、

我已经完成了一个测试，不看csv，只做一个一次性的开始url。我不知道如何打开一个包含一百万个urls的大型csv，让scrapy遍历每个urls，然后再转到下一个。import scrapyname = 'stkscrape' start_urls

浏览 3提问于2020-04-30得票数 0

2回答

运行结果很差

刚刚开始使用Scrapy，我希望能在正确的方向上有所作为。我想从这里抓取数据： import scrapy name = 'sportstatscontent) for result in results:现在我需要转到下一个页面s

浏览 2提问于2016-05-12得票数 0

2回答

我怎样才能跳到下一页的刮取规则

、、、

我设置了从start_url获取下一个页面的规则，但是它不起作用，它只爬行start_urls页面和页面中的链接(使用parseLinks)。它不会转到规则中的下一页。from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selector import Selector

浏览 3提问于2014-01-13得票数 3

回答已采纳

1回答

我的脚本似乎没有调用parse_item方法

、、

我对刮擦很陌生，我的第一个练习是在下午6点的网站上刮一页： # -*- coding: utf-8 -*-from scrapy import Spider name = 's

浏览 0提问于2018-07-05得票数 1

回答已采纳

1回答

Scrapy.Spider:过列start_requests中的回调不会跳转到另一个自定义函数

、、

): yield scrapy.Request(url=url, callback=self.parse_first_pagescrapy.Request(url=next_url, callback=self.parse, cb_kwargs=self.args) 如您所见，CustomSpider类重写start_requests，后者是scrapy.R

浏览 2提问于2020-05-18得票数 0

回答已采纳

2回答

Python/Scrapy转到其他URL

、

所以我正在做一个关于scrapy的小项目，我对python和scrapy还是个新手。basicurl = "canadianlawlist.com/" products = response.xpath('//*[@class="searchresult_item_regular"]/a/@hre

浏览 21提问于2018-08-15得票数 0

1回答

蜘蛛不想刮下一页

、

由于某种原因，我的蜘蛛不想转到下一页。它没有给我任何错误，但抓取了唯一的页面。我有类似的代码，但另一个网站，它工作得很好。from scrapy.spiders import CrawlSpiderclass JobsSpider(CrawlSpider):} url = response.xpath('//*[@id="searchform"]/div[5]/

浏览 16提问于2019-06-12得票数 0

回答已采纳

1回答

我试图使用python中的scrapy来抓取映像src，但是image元素想要从没有类的<source>元素中抓取。

、、、、

我试图使用python中的scrapy来抓取图像src，但是表单img元素想要从没有class属性或src属性的元素中抓取，请任何人帮助我如何做到这一点，谢谢提前感谢。from scrapy.crawler import CrawlerProcessfromdatetime import datetime

浏览 10提问于2022-10-14得票数 -1

回答已采纳

1回答

xpath提取URL - Scrapy

、、

我正在尝试抓取以下网站：https://bionetz.ch/adressen/detailhandel/bio-fachgeschaefte.html 在我的刮刀的末尾，我想集成一个for循环，它会自动转到下一页

浏览 13提问于2019-09-15得票数 0

回答已采纳

1回答

在scraper.py中使用粗糙的自定义设置

、、、

我想使用scrapy runspider scrapy.py运行这个scrapy文件，它没有任何如何使用自定义设置的文件，比如'CONCURRENT_ requests '：1，但是当start_requests请求 for urlin self.urls: request = scrapy</e

浏览 0提问于2018-06-20得票数 0

1回答

Scrapy:如何使用regex跟踪页面上的多个链接

、、、

我有一个能很好地收集信息的刮板，但是当我试图实现规则来爬行“下一个”页面时，我会被卡住。使用Scrapy 0.22 (我现在无法升级)。import reimport dateutil from scrapy.selectorimport Selector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtra

浏览 2提问于2015-09-30得票数 3

1回答

Scrapy请求优先级forloop

、

for each in player_url: yield scrapy.Request(match_data.get('table_url'), callback=self.parse_table_url)在没有完成forloop的情况下，调用下一个请求

浏览 1提问于2020-05-28得票数 1

1回答

在我没有在parse中产生一个请求后，Scrapy会立即停止

、

https://www.hltv.org' + player for player in self.hashPlayers] for urlin urls: def parse(self, responseprofile-player-stat-value bold ')]&#x

浏览 10提问于2020-09-21得票数 0

2回答

刮取:在满足条件时如何在start_urls中爬行下一个url

、、

是否有任何方法来停止当前url的爬行，并在满足给定条件时跳转和爬行start_urls中的下一个url。在这里，我用预定义的日期测试页面中的日期。当符合条件时，我不想再爬网址了。编辑我的代码如下， name = 'test' category = url.split(&#

浏览 0提问于2019-07-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy不想转到下一个url

相关·内容

Scrapy不想转到下一个url

刮擦停止条件

Scrapy:对同一个URL运行多个嵌套搜索

Scrapy FormRequest不执行post请求

Scrapy不想转到下一页

刮伤:在302的情况下如何停止请求？

如何打开一个包含urls列表的大型csv并抓取这些urls？

运行结果很差

我怎样才能跳到下一页的刮取规则

我的脚本似乎没有调用parse_item方法

Scrapy.Spider:过列start_requests中的回调不会跳转到另一个自定义函数

Python/Scrapy转到其他URL

蜘蛛不想刮下一页

我试图使用python中的scrapy来抓取映像src，但是image元素想要从没有类的<source>元素中抓取。

xpath提取URL - Scrapy

在scraper.py中使用粗糙的自定义设置

Scrapy:如何使用regex跟踪页面上的多个链接

Scrapy请求优先级forloop

在我没有在parse中产生一个请求后，Scrapy会立即停止

刮取:在满足条件时如何在start_urls中爬行下一个url

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐