文章/答案/技术大牛

发布

Scrapy暂停和恢复爬网，结果目录

Scrapy 是一个用于网络爬虫的 Python 框架，它允许开发者编写高效的爬虫程序来抓取网站并提取数据。Scrapy 提供了多种机制来控制爬虫的暂停和恢复，以便在需要时能够继续之前的工作。

基础概念

Scrapy 使用一个称为“作业”（Job）的概念来管理爬虫的生命周期。每个爬虫运行时都会创建一个作业，这个作业包含了爬虫的状态信息，包括已经访问过的 URL、提取的数据等。

暂停和恢复的优势

节省资源：当爬虫暂停时，可以释放服务器资源，避免不必要的能耗。
错误恢复：在遇到网络问题或其他异常时，可以暂停爬虫，待问题解决后再恢复。
数据一致性：在长时间运行的任务中，暂停和恢复可以保证数据的完整性和一致性。

类型

Scrapy 支持两种主要的暂停和恢复方式：

手动暂停和恢复：通过命令行或脚本手动控制爬虫的启动和停止。
自动暂停和恢复：基于某些条件（如时间、错误次数等）自动触发暂停和恢复。

应用场景

大规模数据抓取：在需要长时间运行的爬虫任务中，可以使用暂停和恢复功能来管理资源。
定时任务：可以设置在特定时间暂停和恢复爬虫，以避开网站的高峰时段。
异常处理：当爬虫遇到不可恢复的错误时，可以暂停并等待人工干预。

遇到的问题及解决方法

问题：Scrapy 暂停后无法恢复到之前的状态。

原因：可能是由于作业文件（通常是 .jl 文件）损坏或丢失，或者是 Scrapy 的状态管理机制出现了问题。

解决方法：

检查作业文件：确保作业文件没有损坏，并且位于正确的目录中。
使用 JOBDIR 参数：在启动爬虫时指定 JOBDIR 参数来保存和加载作业状态。
使用 JOBDIR 参数：在启动爬虫时指定 JOBDIR 参数来保存和加载作业状态。
重新启动爬虫：如果作业文件丢失，可以尝试删除旧的作业目录，并重新启动爬虫。
重新启动爬虫：如果作业文件丢失，可以尝试删除旧的作业目录，并重新启动爬虫。

示例代码

以下是一个简单的 Scrapy 爬虫示例，展示了如何使用 JOBDIR 参数来控制暂停和恢复。

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 提取数据的逻辑
        pass

# 启动爬虫并保存作业状态
# scrapy crawl example -s JOBDIR=crawls/example-1

# 恢复之前的爬虫作业
# scrapy crawl example -s JOBDIR=crawls/example-1

通过这种方式，你可以有效地管理 Scrapy 爬虫的暂停和恢复，确保数据抓取任务的连续性和稳定性。

页面内容是否对你有帮助？

有帮助

没帮助

Scrapy暂停和恢复爬网，结果目录

、、

但我不知道结果在哪里。scrapy crawl somespider -s JOBDIR=爬行/somespider-1 我看了看https://docs.scrapy.org/en/latest/topics/jobs.html包含结果的文件在哪里？2020-09-10 23:31:31 [scrapy.core.engine] INFO: Closing spider (finished) 2020-09-10 23:31:31 [

浏览 30提问于2020-09-11得票数 1

回答已采纳

2回答

在虚拟机上运行python程序

、

我安装了python和scrapy。我想从那里运行我的蜘蛛，scrapy crawl test -o test1.csv我从gcp打开终端并运行蜘蛛(工作)，这将需要至少3个小时。

浏览 23提问于2019-08-31得票数 1

回答已采纳

2回答

在存储的数据上重放抓取爬虫

、、

看起来Scrapy有能力在一个重放文件中存储原始数据：但在当前版本的Scrapy中，这一功能似乎已被删除。有没有其他方法可以做到这一点？

浏览 4提问于2011-10-14得票数 14

3回答

我怎样才能停止一个粗糙的CrawlSpider，然后从它中断的地方恢复？

、

我希望能够停止它，保存当前状态，并在以后恢复它，而不必重新开始。有没有办法在Scrapy框架中实现这一点？

浏览 0提问于2011-09-06得票数 13

回答已采纳

1回答

已暂停爬网问题的计划增量爬网行为

然后我暂停了它，这样它就不会影响用户了。它将在下一次计划的增量爬网时恢复还是需要手动恢复？

浏览 12提问于2019-12-20得票数 0

2回答

scrapy菜鸟:教程。运行scrapy crawl dmoz时出错

、

但是当我在startproject文件夹中运行"scrapy crawl dmoz“时，我得到了以下错误消息：2012-04-24 18:12:56-0400 [scrapy] INFO: Scrapy 0.14.0.2841 started (bot: dmoz) 2012-04-24 18:12:56-0400 [scrapy"c:\Python27\lib\site-packages\s

浏览 1提问于2012-04-25得票数 3

2回答

保存Web爬网结果(Scrapy)

、、

代码如下：from scrapy.selector import HtmlXPathSelectorfrom scrapy.http import Request from individualProject.items import ProjectItemline = json.dumps(dict(item)) +

浏览 0提问于2013-11-02得票数 1

3回答

Scrapy似乎不是在做DFO

、、

a、b和c中的每一个都由不同的解析函数处理，相应的urls在请求对象中创建并生成。(self,response)然而，我发现抓取的顺序似乎是a1，a2，a3，b1，b2，b3，c1，c2，c3，这很奇怪，因为我认为Scrapy顺序不一定要严格，但我抓取的站点有一个限制，所以Scrapy需要在5个B级抓取之前尽快开始抓取c级。如何才能做到这一点？

浏览 1提问于2012-03-04得票数 11

回答已采纳

1回答

Solr 5.0和Nutch 1.10

、

我在windows server 2008 R2上使用solr5.0，nutch1.10和cygwin。我发出的命令如下：据我所知，2是爬行的轮数。当我发出这个命令将数据传递给Solr时： bin/nutch solrindex段爬网/crawldb -linkdb爬网/linkdb爬网</

浏览 0提问于2015-06-03得票数 0

1回答

有什么方法可以用干净的工作来开始一段艰难的历程吗？

、、

暂停爬行之后，我希望使用启用JOBDIR选项来保持新爬行的状态，重新启动爬行，但由于数据已经过时，我确实希望删除上一次爬行的状态。对于scrapy没有启动/停止/恢复，管理爬行的唯一命令是 scrapy crawl somespider -s JOBDIR=crawls/somespider-1

浏览 0提问于2019-02-12得票数 0

回答已采纳

1回答

抓取句柄302重定向

、、、、

如果有人能帮我度过难关，我将不胜感激2017-11-06 02:11:14 [scrapy.core.engine] INFO: Spider opened2017-11-06 02:11:14 [scrapy.extensions.telnet] DEBUG: Te

浏览 2提问于2017-11-06得票数 0

1回答

Nutch搜索始终返回0个结果

、、、

它已经设置并成功爬网，我使用dfs-copyToLocal复制了爬网目录并设置了searcher的值。dir在nutch站点。位于tomcat目录中的xml文件，以指向该目录。当我尝试搜索时，仍然收到0个结果。任何帮助都将不胜感激。

浏览 0提问于2009-06-04得票数 1

1回答

尝试让Scrapy在Windows中使用Pycharm

、、、

我正在迁移到Windows，并希望让Scrapy与Pycharm一起工作。我尝试添加以下内容：以及更改- /Library/Python/2.7/site-packages/scrapy/cmdline.py我的输出如下所示- from scrapy import cmdline cmdline.execute("scrapy crawl s

浏览 0提问于2017-11-16得票数 0

1回答

我可以在项目目录之外执行scrapy(python)爬行吗？

、、、

文档说我只能在项目目录中执行爬网命令：但我真的需要在我的python代码中执行它( python文件不在当前项目目录中 └── spiders│ │ ├── etao_spider.py│ ├── scrapy.cfg/usr/bin/env python

浏览 2提问于2012-03-02得票数 1

回答已采纳

1回答

Scrapy部署算法

、、、、

请帮我理清思路：我想在EC2上为我的项目设置一个爬网。我正在使用带有MySQL的Scrapy来显示结果。另外，我想为预定的爬行(例如每天)实现cron；所以我的理解是:我用所有必要的包(python、mysql、scrapy等)设置EC2；然后我创建我的爬虫，我测试它们；当它们工作时，我设置cron让爬行在没有我的情况下发生

浏览 11提问于2017-02-26得票数 0

回答已采纳

3回答

Scrapy pause/resume是如何工作的？

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。crawler.configure()crawler.start()reactor.run() 如您所见，我启用了JOBDIR选项，以便可以保存爬网的状态我在Scrapy代码中跟踪了这个问题，看起来RFPDupeFilter打开了带有'a+‘标志的requ

浏览 0提问于2015-03-04得票数 8

1回答

以编程方式获取SharePoint快速搜索内容源

、、、

需要帮助才能完成我的C#程序。我的场中有四个内容源。我需要得到所有的内容源，并开始完整的抓取，如果内容源是空闲的。

浏览 6提问于2013-03-11得票数 1

回答已采纳

1回答

重新登录到Scraped网站以恢复Scrapy工作

、

有没有办法让爬虫在恢复之前暂停的抓取作业时登录到网站？编辑:为了澄清，我的问题实际上是关于Scrapy爬虫，而不是一般的cookie。也许一个更好的问题是，当Scrapy爬虫在作业目录中被冻结后复活时，是否有任何方法被调用。

浏览 0提问于2012-05-09得票数 1

1回答

剪贴画重复过滤器是否可以持久与作业？

、、、、

from scrapy.exceptions import DropItem else: return item 上面的代码来自Scrapy正如Scrapy文档所建议的，要暂停和恢复爬行器，我需要

浏览 1提问于2019-11-05得票数 0

1回答

使用scrapy和crontab调度爬网

、、、

我是使用crontab的新手，我只是试着每隔5分钟阅读一篇如何使用scrapy自动计划抓取的文章，还有一些文章建议使用crontab…但我不知道如何实现正确的脚本...#!/bin/shscrapy crawl thehack但是当我尝试使用*/5**** cd /home/kautsar &&am

浏览 10提问于2016-07-18得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy暂停和恢复爬网，结果目录

基础概念

暂停和恢复的优势

类型

应用场景

遇到的问题及解决方法

问题：Scrapy 暂停后无法恢复到之前的状态。

示例代码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐