我想知道Scrapy如何过滤那些爬行的urls?它是否存储了所有爬行在类似crawled_urls_list
中的url,当它获得一个新的url时,它会查找列表以检查url是否存在?
CrawlSpider(/path/to/scrapy/contrib/spiders/crawl.py)过滤部分的代码在哪里?
非常感谢!
发布于 2012-11-29 07:50:50
默认情况下,scrapy保存所见请求的指纹。这个列表保存在python集中的内存中,并在JOBDIR变量定义的目录中附加一个文件调用requests.seen。如果重新启动scrapy,文件将重新加载到python集中。控制它的类在scrapy.dupefilter中,如果需要不同的行为,您可以重载这个类。
https://stackoverflow.com/questions/13621014
复制相似问题