文章/答案/技术大牛

发布

社区首页 >问答首页 >如何建立一个基于Scrapy的网络爬虫来永久运行？

问如何建立一个基于Scrapy的网络爬虫来永久运行？
EN

Stack Overflow用户

提问于 2010-02-28 04:07:13

回答 2查看 5.8K关注 0票数 11

我想建立一个基于Scrapy的网络爬虫，从几个新闻门户网站抓取新闻图片。我想让这个爬虫：

永远跑这意味着它将定期重新访问一些门户页面，以获得更新。
安排优先次序。对不同类型的URL给予不同的优先级。
多线程取料

我读过Scrapy文档，但没有发现与我列出的内容相关的东西(也许我不够小心)。这里有人知道怎么做吗？或者给出一些想法/例子。谢谢!

python

web-crawler

scrapy

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-02-28 04:47:32

Scrapy是一个网站爬升的框架，因此，它旨在支持您的标准，但它不会为您跳槽；您可能需要相对熟悉一些任务的模块。

永远运行取决于调用Scrapy的应用程序。你告诉蜘蛛去哪里，什么时候去那里。
提供优先级是调度中间件的工作，您必须创建并插入Scrapy。这方面的文档看起来很不稳定，我还没有看过代码--原则上，函数就在那里。
刮伤是天生的，本质上是异步的很可能是您想要的:请求B可以在请求A仍未完成时得到满足。底层连接引擎并不阻止您真正的多线程，但Scrapy不提供线程服务。

Scrapy是一个库，而不是应用程序。模块的用户需要做大量的工作(代码)。

票数 12

Stack Overflow用户

发布于 2016-08-18 03:30:27

关于跑步的要求-永远，这里有一些细节。

您需要捕获signals.spider_idle信号，在连接到该信号的方法中，您需要引发一个DontCloseSpider异常。当没有挂起的请求时，spider_idle信号被发送到刮伤引擎，默认情况下蜘蛛将关闭。你可以拦截这个过程。

见代码blow：

import scrapy
from scrapy.exceptions import DontCloseSpider
from scrapy.xlib.pydispatch import dispatcher

class FooSpider(scrapy.Spider):
    def __init__(self, *args, **kwargs):
        super(FooSpider, self).__init__(*args, **kwargs)
        dispatcher.connect(self.spider_idle, signals.spider_idle)

    def spider_idle(self):
        #you can revisit your portal urls in this method
        raise DontCloseSpider

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2350049

复制

相似问题

问如何建立一个基于Scrapy的网络爬虫来永久运行？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何建立一个基于Scrapy的网络爬虫来永久运行？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何建立一个基于Scrapy的网络爬虫来永久运行？
EN