我想建立一个基于Scrapy的网络爬虫,从几个新闻门户网站抓取新闻图片。我想让这个爬虫:
我读过Scrapy文档,但没有发现与我列出的内容相关的东西(也许我不够小心)。这里有人知道怎么做吗?或者给出一些想法/例子。谢谢!
发布于 2010-02-28 04:47:32
Scrapy是一个网站爬升的框架,因此,它旨在支持您的标准,但它不会为您跳槽;您可能需要相对熟悉一些任务的模块。
Scrapy是一个库,而不是应用程序。模块的用户需要做大量的工作(代码)。
发布于 2016-08-18 03:30:27
关于跑步的要求-永远,这里有一些细节。
您需要捕获signals.spider_idle信号,在连接到该信号的方法中,您需要引发一个DontCloseSpider异常。当没有挂起的请求时,spider_idle信号被发送到刮伤引擎,默认情况下蜘蛛将关闭。你可以拦截这个过程。
见代码blow:
import scrapy
from scrapy.exceptions import DontCloseSpider
from scrapy.xlib.pydispatch import dispatcher
class FooSpider(scrapy.Spider):
def __init__(self, *args, **kwargs):
super(FooSpider, self).__init__(*args, **kwargs)
dispatcher.connect(self.spider_idle, signals.spider_idle)
def spider_idle(self):
#you can revisit your portal urls in this method
raise DontCloseSpider https://stackoverflow.com/questions/2350049
复制相似问题