我正在使用ScrapyCrawlSpider类来抓取电子商务网站的分类页面。问题是,大约5%的请求在5次重试后被拒绝,并且不会达到100%的已知类别。我的解决方法涉及到第二个爬行器(scrapy.Spider),它从数据库中获取丢失的已知URL,并简单地重新抓取它们。这样我就达到了100%的成绩。问题是,这是两个不同的爬虫,它们位于两个不同的python文件中,需要由cron作业分别触发。class myspider(CrawlSpider):
name = 'cat
我对python很陌生,并试图通过一个小例子,但是我遇到了一些问题!我只能抓取第一个给定的网址,但我不能抓取超过一个网页的或整个网站的问题!请帮助我,或给我一些建议,我如何可以爬行整个网站或更多的网页,在一般情况下.import scrapy title = scrapy.Field()import scrapy
from w
在我的中,我对我的问题不太明确(用Scrapy的认证会话进行抓取),希望能够从更一般的答案中推断出解决方案。我可能宁愿使用crawling这个词。到目前为止,这是我的代码: name = 'myspider'问题是,为了登录,我试图覆盖的parse函数,现在不再进行必要的调用来刮取更多的页面(我假设)。我不知道如何保存我创建的