我正在从许多网站上抓取项目(使用scrapy进行同样的操作)。我试图抓取的项目并不总是定义得很好,可能在文本中。因此,我使用字符串匹配来识别项。通过使用"if“条件,我在达到上限时引发了一个CloseSpider()异常。这种方法工作得很好,直到我只有一个域需要抓取。如何将其扩展到多个域名。scrape_count = self.crawler.stats.get_value('item_scraped_count')
if scrape_count
我正在使用以下方法检查我的spider.py中的(internet)连接错误 for url in self.start_urls:yield scrapy.Request(url, callback=self.parse, errback=self.handle_error)
raise CloseSpider('Because of Connection issues!'