文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在刮伤中禁用缓存？

问如何在刮伤中禁用缓存？
EN

Stack Overflow用户

提问于 2015-09-16 17:41:27

回答 3查看 8.1K关注 0票数 8

我试图在一个特定的website.The网页上爬行一个网页，对于我通过scrapy.Request()发送的不同的cookies集，有一些不同的变化。

如果我一个一个地请求网页，它会给我正确的结果，但是当我把这些cookie发送到for循环中时，它给了我相同的结果。我认为scrapy正在为我创建缓存，在第二个请求中，它从cache.Here获取的响应是我的代码：

def start_requests(self):
        meta = {'REDIRECT_ENABLED':True}
        productUrl = "http://xyz"
        cookies = [{'name': '', 'value': '=='},{'name': '', 'value': '=='}]
        for cook in cookies:

            header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"}
            productResponse = scrapy.Request(productUrl,callback=self.parseResponse,method='GET',meta=meta,body=str(),cookies=[cook],encoding='utf-8',priority=0,dont_filter=True)
            yield productResponse


def parseResponse(self,response): 
     selector = Selector(response)
     print selector.xpath("xpaths here").extract()
     yield None

我希望print语句会为这两个请求提供不同的结果。

如果有什么不清楚的地方，请在评论中提及。

caching

scrapy

回答 3

Stack Overflow用户

回答已采纳

发布于 2016-08-16 12:36:01

缓存可以通过两种方式禁用。

更改setting.py文件中与缓存相关的设置中的值。通过保持HTTPCACHE_ENABLED=False
也可以在运行时“抓取爬行-名称-set HTTPCACHE_ENABLED=False”中完成。

票数 17

Stack Overflow用户

发布于 2016-08-19 08:47:54

在这里，我假设您只是想避免只缓存特定的请求。

对于本例，它意味着避免在start_requests下缓存这些请求，并缓存所有其他请求(在parseResponse下可能有)。

要做到这一点，只需将productResponse.meta['dont_cache'] = True行添加到代码中，并在settings.py下设置HTTPCACHE_ENABLED=True

现在，所有其他请求都将被缓存。

def start_requests(self):
        meta = {'REDIRECT_ENABLED':True}
        productUrl = "http://xyz"
        cookies = [{'name': '', 'value': '=='},{'name': '', 'value': '=='}]
        for cook in cookies:

            header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"}
            productResponse = scrapy.Request(productUrl,callback=self.parseResponse,method='GET',
                                             meta=meta,body=str(),cookies=[cook],
                                             encoding='utf-8',priority=0,dont_filter=True)
            productResponse.meta['dont_cache'] = True
            yield productResponse

def parseResponse(self,response): 
     selector = Selector(response)
     print selector.xpath("xpaths here").extract()
     yield None

票数 5

Stack Overflow用户

发布于 2021-01-23 20:30:50

只需向请求url添加一个虚拟参数即可。

import random

productUrl = "http://xyz" + "?dummy=" + str(random.random())

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32615250

复制

相似问题

问如何在刮伤中禁用缓存？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在刮伤中禁用缓存？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在刮伤中禁用缓存？
EN