为什么通过CrawlerProcess运行多个抓取爬行器会导致spider_idle信号失败？

将所有请求一次排队会导致数千个请求失败，因为会话令牌在随后的请求发出之前就过期了。因此，我发出了合理数量的请求，这些请求将在会话令牌过期之前可靠地完成。当一批请求完成时，将触发spider_idle信号。如果需要进一步的请求，则信号处理程序请求将新的会话令牌用于下一批请求。当正常运行一个爬行器或通过CrawlerProcess运行一个爬行器时

浏览 24提问于2019-06-14得票数 0

回答已采纳

2回答

Scrapy使用系统中的两个核心

、

我正在使用他们的内部API运行scrapy，到目前为止一切都很好。但我注意到它并没有完全使用设置中提到的16的并发性。我已经将延迟改成了0，其他我能做的都改了。这就是我知道上面构建scrapy的扭曲库是单线程的，这就是为什么它只使用单核的原因。有没有办法说服scrapy使用所有的核心？

浏览 15提问于2017-08-13得票数 0

2回答

在Scrapy爬虫完成爬行时运行代码

、、

有没有办法让Scrapy在爬行完全完成后执行代码，以处理移动/清理数据？我确信这是微不足道的，但我的Google-fu似乎为了这个问题而离开了我。

浏览 0提问于2013-06-28得票数 8

1回答

Scrapy Crawler进程设置

、、

我已经构建了多个爬虫程序，并希望使用CrawlerProcess同时运行它们。但是，在构建爬行器时，我对其进行了设置，这样它们的运行速度会稍慢一些，并且会有下载延迟。当单独运行爬虫时，设置工作得很好，但当我运行所有四个爬虫时，它的爬行速度非常快，一些网站将我踢出网络。我想知道的是为什么CrawlerProcess不遵循设置，如果有一种方法可以实现这一点，我该如何实现。__file_

浏览 25提问于2018-12-13得票数 1

回答已采纳

1回答

信号只在主线程中起作用

、、

我正在尝试通过django视图运行我的抓取爬行器。当我通过命令提示符运行时，我的scrapy代码运行得很好。但是当我尝试在django上运行它时，它失败了。错误消息: signal只在主线程中工作。from twisted.internet import reactorfrom scrapy.crawler import CrawlerP

浏览 1提问于2016-03-10得票数 23

1回答

重复地从同一url抓取数据，并有一定的延迟。

、、

我试图在一段时间内持续抓取单个网页，以监控一些值以及它们在这段时间内的变化情况timecheck = timeit.default_timer() if __name__ == "__main__":

浏览 18提问于2017-07-04得票数 3

回答已采纳

8回答

如何从Python脚本中运行Scrapy

、、、

我是Scrapy的新手，我正在寻找一种从Python脚本运行它的方法。我找到了两个来源来解释这一点： from scrapy.conf import settings def __in

浏览 0提问于2012-11-18得票数 82

5回答

当脚本位于根目录之外时，获取scrapy项目设置

、、、

我已经制作了一个Scrapy爬行器，可以从位于项目根目录的脚本中成功运行。由于我需要从同一脚本运行来自不同项目的多个爬虫(这将是一个django应用程序根据用户的请求调用脚本)，因此我将脚本从其中一个项目的根目录移动到父目录。由于某些原因，脚本不再能够获取项目的自定义设置，以便将抓取的结果通过管道传输到数据库表中。下面是我用来从脚本运行爬行器的scrapy文档中的代码： s

浏览 2提问于2015-07-28得票数 15

2回答

从python脚本调用scrapy而不是创建JSON输出文件

、、、

self.exporter.export_item(item) return item创建了一个具有预期输出的链接文件，当我执行.But脚本时，它没有创建任何文件，尽管爬虫运行时转储的scrapy统计数据与上一次运行的相似

浏览 4提问于2013-03-19得票数 3

2回答

什么更好，更高的GHz和更少的核心或更多的GHz更低的红宝石应用程序

、、

我刚刚完成了一个网络爬虫的开发，它基本上允许用户抓取他们的网站，它通过他们的网站告诉他们错误。然而，我的应用程序是非常服务器资源密集型。这是一个红宝石应用程序使用rails，mongo，一些宝石和运行在后台使用延迟作业爬行。如果我再尝试爬行，那么每次5次，这个过程就会被杀死，爬行失败。当一次抓取5个网站时，我的CPU使用率是95% - 100%，而我只使用了大约600 my的ram。我正在市场上购买一台服务器，我的预

浏览 0提问于2012-01-11得票数 2

2回答

木偶人爬行器大规模爬行

、、

我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

2回答

Python Scrapy -如何同时从2个不同的网站抓取？

、

我需要从Excel中给出的域列表中抓取数据；问题是我需要从原始网站(让我们举个例子：)和从similartech ()抓取数据。我希望它们同时被抓取，这样我就可以接收它们，并在最后格式化它们一次，之后我将直接转到下一个域。理论上，我应该在scrapy中以异步方式使用2个爬行器？

浏览 2提问于2020-02-10得票数 1

3回答

Scrapy -如何启动同一爬虫进程的多个实例？

、、、

我在启动同一爬虫的多个实例时被卡住了。我想让它像一个爬虫实例的1url一样运行。我必须处理50k个urls，为此，我需要为每个urls启动单独的实例。在我的主要爬虫脚本中，我设置了7分钟的closedpider超时，以确保我不会爬行很长时间。请参考下面的代码：from scrapy.utils.project import get_project_settings()请建议我应该做些什么才能让

浏览 1提问于2015-11-13得票数 6

1回答

从爬网命令和从CrawlerProcess运行爬虫不会输出相同的结果

、、

我过去常常使用现在，我需要从脚本(从django应用程序，使用django-rq )运行爬行器因此，我遵循CrawlerProcess文档以如下所示的脚本结束crawler_settings.setmodule(cotextractor_settings'))问

浏览 13提问于2017-07-12得票数 0

回答已采纳

5回答

在本地运行Scrapy中的所有爬行器

、、

有没有办法在不使用Scrapy守护进程的情况下运行Scrapy项目中的所有爬行器？过去有一种方法可以用scrapy crawl运行多个爬行器，但这种语法被删除了，Scrapy的代码也发生了很大的变化。self.crawler.spiders.create(spider_name)但是，一旦一个爬行器</em

浏览 0提问于2013-03-22得票数 17

回答已采纳

1回答

ScrapyRT vs Scrapyd

、、、

它为一个scrapy项目提供了一个很好的包装器，并且它的爬行器可以通过HTTP API控制爬行器：Scrapy 服务器，它提供了用于调度Scrap

浏览 120提问于2016-05-18得票数 26

回答已采纳

1回答

刮擦蜘蛛运行，但o页爬行

、、、

我是新的网络刮刮，并试图运行一个简单的蜘蛛收集名称，品牌和价格信息，从一个网站销售山地自行车。我试图建立和运行蜘蛛所有的脚本，因为我认为这是更简单的人在我的水平。爬行器运行，但得到的.csv文件为空。尝试运行蜘蛛后，终端中的消息会让您知道INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)。我不知道为什么这只蜘蛛不爬行，也不

浏览 22提问于2022-09-28得票数 0

2回答

GSA是否可以将Apache Solr索引的数据用作组合解决方案进行搜索

、、、

据观察，google没有通过其企业搜索解决方案Google search Appliance提供良好的索引。但是Apache solr有很好的索引能力。我们是否可以使用apache solr来索引文档，然后通过GSA服务器搜索这些文档。这样我们才能充分利用这两个世界。请谈谈你的想法?？

浏览 2提问于2015-05-19得票数 1

1回答

测试咖啡馆测试在信号量中运行时偶尔挂起

、、、、

这并不是关于固定挂起的问题，而是想知道是否有一种方法可以让test咖啡馆在给定的时间后决定测试必须失败。我们的测试在本地机器上运行良好，但偶尔在CI中使用信号量上的对接器映像运行时，其中一个选择器会导致它挂起。我很好地研究了为什么会这样，但是如果我可以让测试在5分钟后放弃(它应该在3分钟以下完成)，然后优雅地退出，这样我们就可以拥有堆栈跟踪和视频--如果我们必须终止测试运行，我们也得不到任何一个，所

浏览 1提问于2021-10-04得票数 0

1回答

Scrapy Crawler多个域在检索源页面后没有错误地完成

、

尝试让Scrapy抓取多个域。我让它工作了很短时间，但有些东西改变了，我不知道是什么。我的理解是，带有规则的"CrawlSpider“应该遵循任何允许的链接，直到深度设置或域名耗尽。), callback='parse', follow=True),) print(response.url) 'http://www.bbc.com/n

浏览 29提问于2018-06-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy使用系统中的两个核心

在Scrapy爬虫完成爬行时运行代码

Scrapy Crawler进程设置

信号只在主线程中起作用

重复地从同一url抓取数据，并有一定的延迟。

如何从Python脚本中运行Scrapy

当脚本位于根目录之外时，获取scrapy项目设置

从python脚本调用scrapy而不是创建JSON输出文件

什么更好，更高的GHz和更少的核心或更多的GHz更低的红宝石应用程序

木偶人爬行器大规模爬行

Python Scrapy -如何同时从2个不同的网站抓取？

Scrapy -如何启动同一爬虫进程的多个实例？

从爬网命令和从CrawlerProcess运行爬虫不会输出相同的结果

在本地运行Scrapy中的所有爬行器

ScrapyRT vs Scrapyd

刮擦蜘蛛运行，但o页爬行

GSA是否可以将Apache Solr索引的数据用作组合解决方案进行搜索

测试咖啡馆测试在信号量中运行时偶尔挂起

Scrapy Crawler多个域在检索源页面后没有错误地完成

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐