如何向另一个具有不同设置的爬行器生成Scrapy请求？

、、

这个问题本质上和是一样的，但是我想仔细检查一下是否有“原生的”方法来解决这个问题。我正在抓取网页，99%的时间都可以成功抓取，而不需要渲染JavaScript。我想写一个带有item_scraped方法的Scrapy ，该方法检查是否所有预期的字段都已填充，如果没有，则生成一个包含开机启动设置的custom_settings的不同爬行器的Spl

浏览 16提问于2017-07-20得票数 1

回答已采纳

1回答

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

、、

这是一个简单的抓取蜘蛛 name = "dmoz" 只是为了让parse2函数工作，我需要在请求方法中添加dont_filter=True作为参数。yield scrapy.Request(self.start_urls[0],callback=self.parse2,do

浏览 1提问于2016-08-15得票数 8

回答已采纳

1回答

在刮伤中，已经被跟踪的链接会发生什么？

、、

我有一个蜘蛛，比方说，它使用'response.follow‘方法跟踪网站中的所有链接，并且递归地这样做。它可以多次找到相同的链接，但我知道默认情况下，在最后版本的scrapy中，已经遵循的链接不再被遵循。这是真的吗？我找不到很多关于这件事的信息。如果这是真的，它会停止爬行，当所有可能的链接已经用尽，因此每个产生的请求是重复的？

浏览 1提问于2022-05-25得票数 -1

回答已采纳

1回答

如何停止Scrapy编译Scrapy项目中的所有python文件

、、

对于一个scrapy项目，我开发了多个爬行器，并将它们存储在同一个爬行器文件夹中。我使用以下命令通过cmd运行所有的抓取器: scrapy crawl spidername 然而，我注意到它遵守了项目或文件夹中的所有爬虫，尽管它们存储在不同的python文件中，具有不同的文件名，不同的爬行器名

浏览 0提问于2015-01-12得票数 0

3回答

最好的网络图形爬虫的速度？

、、

在过去的一个月里，我一直在使用Scrapy进行一个我已经开始的网络爬行项目。我已经意识到，我最初认为Scrapy不适合这种爬行的想法正在暴露出来。我已经开始关注Nutch和，希望能有更好的性能。在<em

浏览 0提问于2010-08-06得票数 5

回答已采纳

3回答

Scrapy pause/resume是如何工作的？

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。我将DOWNLOAD_DELAY设置为10 seconds，这样就可以在处理请求之前停止爬行器。我本以为下次运行爬行器时，请求将不会重新生成。事实并非如此。但是，下次运行爬行器时

浏览 0提问于2015-03-04得票数 8

3回答

抓取:爬行多个蜘蛛，共享相同的项、管道和设置，但具有不同的输出。

、、、

我的scrapy项目包含多重爬行器(Spider1、Spider2、等)，它爬行不同的网站，并将每个网站的内容保存在不同的JSON文件中(output1.json、output2.json等)。在不同网站上收集的项目具有相同的结构，因此蜘蛛使用相同的项、管道和设置类。输出由管道中的自定义JS

浏览 2提问于2017-07-25得票数 3

回答已采纳

2回答

如何在项目管道上激发open_spider方法

、、

我使用的是scrapy 0.20和python 2.7因此，当爬行器打开或关闭时，项管道没有任何作用。此外，项目管道组件无法知道爬行器何时打开或关闭。那么，根据，open_spider方法是如何存在于项目管道组件中的呢

浏览 0提问于2014-04-13得票数 2

1回答

如何在一个python脚本中调用2个Scrapy爬虫？

、

我正在使用Scrapy CrawlSpider类来抓取电子商务网站的分类页面。问题是，大约5%的请求在5次重试后被拒绝，并且不会达到100%的已知类别。我的解决方法涉及到第二个爬行器(scrapy.Spider)，它从数据库中获取丢失的已知URL，并简单地重新抓取它们。这样我就达到了100%的成绩。问题是，这是两个不同的爬虫，它们位于两个不同<e

浏览 1提问于2021-08-07得票数 1

2回答

和Scrapy产生的请求

、

举例说明yield和return有什么不同？当我们在生成器中yield任何值或请求时，实际发生了什么？for index in range(3):这是在特定的url上发出请求，并在请求之后调用回调函数。代码所遵循的顺序是什么？

浏览 1提问于2012-01-09得票数 7

4回答

如何在同一解析函数中抓取另一次抓取的结果？

、、

嗨，所以我正在抓取一个有文章的网站，每篇文章中都有一个文件的链接，我设法抓取了所有的文章链接，现在我想访问每个文章并收集其中的链接，而不是可能不得不将第一次抓取的结果保存到json，然后编写另一个脚本。import scrapy name = "sgbd" "http:/= "35"

浏览 1提问于2021-03-24得票数 0

2回答

使用Scrapy写入多个文件

、、

我正在用Scrapy抓取一个网站，我想把结果分成两部分。通常我这样叫Scrapy：$ scrapy crawl authors -o authors.json如何让articles爬行器</e

浏览 3提问于2013-02-04得票数 6

回答已采纳

1回答

刮擦防止跨计划访问相同的URL

、

我计划将一个Scrapy蜘蛛部署到ScrapingHub，并使用调度特性每天运行该蜘蛛。我知道，默认情况下，Scrapy不访问相同的URL。但是，我想知道这种重复的URL避免是否在ScrapingHub的计划开始时是持久的？以及我是否可以设置它，以便Scrapy在预定的启动过程中不会访问相同的URL。

浏览 2提问于2018-05-24得票数 1

回答已采纳

2回答

使用Google Cloud Functions时的ReactorNotRestartable与scrapy

、、、

我正在尝试发送多个抓取请求与谷歌云函数。但是，我似乎得到了ReactorNotRestartable错误。从this one等StackOverflow上的其他帖子中，我了解到这是因为无法重新启动反应堆，特别是在执行循环时。解决这个问题的方法是将start()放在for循环之外。然而，对于云函数，这是不可能的，因为每个请求在技术上都应该是独立的。 CrawlerProcess是否以某种方式与云函数一起缓存？如果是这样，我们如何才能消除这种行为。例如，我尝试将导入和初始

浏览 24提问于2020-04-07得票数 3

回答已采纳

1回答

在我没有在parse中产生一个请求后，Scrapy会立即停止

、

我正在尝试创建一个通过一定数量的起始urls的爬行器，如果结果页面是正确的页面，我将生成另一个请求。问题是，如果我仍然尝试不产生第二个请求，爬行器将直接停止。如果我放弃第二个请求，就没有问题了。for player in self.hashPlayers] for url in urls: r

浏览 10提问于2020-09-21得票数 0

1回答

如何在检测响应状态中的代码500时自动增加scrapy的DOWNLOAD_DELAY

、、、

我将编写数百个爬虫来抓取不同的静态网页，所以我选择Scrapy来帮助我完成我的工作。在工作过程中，我发现大多数网站都很简单，不会防蜘蛛。但是我发现很难在scrapy.setting.py文件中设置一个套装DOWNLOAD_DELAY。有太多的爬行器要编码，为每个爬行器找到合适的DOWNLOAD_DELAY会耗尽我的时间。我想知道哪些型号的爬虫加

浏览 2提问于2019-01-17得票数 1

1回答

在使用scrapyd时导入不同文件中的函数

、、、

我正在使用scrapy构建一个爬虫，并在运行scrapyd的远程机器上运行它。我的爬行器很长很复杂，所以我把一些函数放在一个不同的文件def.py中。| `-- spiders| |-- spider.py`-- def.py 我使用以下代码在爬行器中导入函数它在我的本地机器上运行得很好，但是如果我<e

浏览 2提问于2015-08-04得票数 0

1回答

如何在Python2.7中创建一个有效的爬虫

、、、

我正在搜索一些衣服的网络，以获得他们的价格和他们的信息，每种产品可用，但与我的实际算法，它需要几天的时间来完成，并获得每个产品的每个不同的链接。例如，如果产品有5种颜色的5个链接，我有一个包含92k个条目和5k个产品的数据库，例如：相同的产品ID (所以相同的产品)，但链接不同。所以我想要一些想法，以及如何实现它们来改善这一点，例如，我有产

浏览 0提问于2015-11-23得票数 1

1回答

scrapy是如何使用规则的？

、、

我刚开始使用Scrapy，我想了解这些规则是如何在CrawlSpider中使用的。如果我有一个在亚利桑那州图森市的纸杯蛋糕列表的黄页中爬行的规则，那么产生一个URL请求如何激活该规则--具体地说，它是如何激活restrict_xpath属性的？谢谢。

浏览 1提问于2014-08-17得票数 23

回答已采纳

4回答

如何使Scrapy在日志中的每个下载请求显示用户代理？

、、、、

我正在学习，一个网络爬行框架。但是，在USER_AGENT的帮助下，我正在使用多个随机。我想这个随机选择的USER_AGENT会

浏览 9提问于2014-04-18得票数 14

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何向另一个具有不同设置的爬行器生成Scrapy请求？

相关·内容