当我不想处理所有404错误时，如何在Scrapy中返回404错误？

在Scrapy中，可以通过自定义的错误处理中间件来处理404错误。以下是一种处理404错误的方法：

创建一个名为CustomErrorMiddleware的中间件类，继承自scrapy.spidermiddlewares.httperror.HttpErrorMiddleware。

from scrapy.spidermiddlewares.httperror import HttpErrorMiddleware
from scrapy.exceptions import IgnoreRequest

class CustomErrorMiddleware(HttpErrorMiddleware):
    def process_spider_exception(self, response, exception, spider):
        if isinstance(exception, HttpError) and response.status == 404:
            # 处理404错误的逻辑
            # 这里可以自定义你想要的操作，比如记录日志、发送通知等
            # 如果你想忽略该请求，可以抛出IgnoreRequest异常
            raise IgnoreRequest
        return None

在Scrapy的配置文件settings.py中启用自定义的中间件。

SPIDER_MIDDLEWARES = {
    'your_project_name.middlewares.CustomErrorMiddleware': 543,
}

请注意，上述代码中的your_project_name需要替换为你的Scrapy项目的名称。

这样，当Scrapy爬虫遇到404错误时，就会触发CustomErrorMiddleware中的处理逻辑。你可以根据实际需求，自定义处理404错误的操作，比如记录日志、发送通知等。

关于Scrapy的更多信息和使用方法，你可以参考腾讯云的产品文档：Scrapy 产品文档。

页面内容是否对你有帮助？

有帮助

没帮助

当我不想处理所有404错误时，如何在Scrapy中返回404错误？

、、、

我想在Scrapy中处理404个错误，但不是所有的404个错误。当我不想处理404错误时，我怎么能引发它呢？

浏览 16提问于2020-05-27得票数 0

1回答

如何检查刮伤中的断链？

、、、

def parse(self, response, **cb_kwargs): *if response HTTP 404 callback**cb_kwargs): pass 事实上，我需要知道第一个方法(解析)中的状态

浏览 3提问于2022-02-24得票数 -1

1回答

在IIS7上设置的站点上，我有一个.aspx页面作为我的自定义404页面。我需要检索用户试图访问的原始URL，以便在404页面上执行一些处理。诀窍是，我需要专门处理不包含.aspx扩展名(例如http://example.com/testurl)的404，它们不会通过ASP.Net的自定义错误部分进行路由。我可以将IIS配置为指向我的自定义404，但在这一点上，我不知道如何获取原始URL？有没有人知道这是否可能？麦克

浏览 1提问于2011-02-22得票数 19

回答已采纳

2回答

在使用httpErrors自定义404错误时需要保留HTTP状态代码在上使用responseMode executeURL

、、、、

我想让所有丢失的内容/“坏”URL重定向到我们的自定义404.html错误页面。这对于准确记录谷歌分析中的404错误非常重要。问题是，当设置responseMode=ExecuteURL标志时，自定义错误不会保留404状态代码，而总是显示200段代码。我可以将其更改为responseMode=Redirect，但在重定向到自定义404.html页之前，它将显示302状态代码。所有这些都可以在httpErr

浏览 13提问于2020-08-25得票数 3

5回答

Laravel 4处理404错误

、

Component \ HttpKernel \ Exception \ NotFoundHttpException 任何帮助都将不胜感激。

浏览 12提问于2013-07-15得票数 8

回答已采纳

2回答

如何在Ajax错误中抛出404错误，以便指向默认的404行为？

、、

web.config文件被设置为处理HTTP404错误。具体地说，它将在无效的URL上提供正确的重定向，如www.mysite.com/INVALIDURL (即404页面未找到) } Edit1:我要找的最终结果是在发生Aja

浏览 1提问于2012-07-27得票数 1

回答已采纳

4回答

Apache:重定向404和ErrorDocument 404差异

、、、、

我想用Apache重定向404，并找到几种解决方案： ServerAlias *.example.com重定向404 /index.html ErrorDocument 404 /index.html 我想知道重定向404和ErrorDocument404有什么区别？

浏览 0提问于2011-08-20得票数 8

1回答

在刮取Scrapy时，每个URL的HTTP响应代码

、、、、

我正在使用Scrapy抓取70000个URL，同时希望通过Scrapy获取每个URL的HTTP响应状态，以便在获取特定URL的内容之后，我们还将获得该URL的响应代码：如何获得相应

浏览 1提问于2018-09-03得票数 0

1回答

在IIS/..net中伪造Http Sub状态代码以进行测试

、、

这个问题/答案可以很好地测试asp.net错误(比如直接测试500、404、502等错误)，但是当我尝试测试错误时，比如500.13 - Web服务器太忙，或者502.2 -坏网关，我无法想出如何做到这一点我认为asp.net生成/处理的错误与IIS (处理子状态代码(如500.13等)的错误有明显的区别。有没有人想过如何测试这些？我发现在web.config中处理</

浏览 3提问于2011-10-12得票数 0

2回答

无法重定向到自定义错误页

、、、

当出现错误时，我试图重定向到自定义页面。();然后它返回一个statusCode 404，而IIS不知道如何处理它，它给了我一个空白页。是否应该在Response.StatusCode = 404;中返回适当的状态代码，如ErrorController中的我不知道这是否好，但我使用Elmah进行错误处理和日志记录。url时，它总是返回一个错误

浏览 3提问于2014-03-07得票数 1

1回答

是否可以仅在ASP.Net中处理404错误？

、、

我应该输入什么web.config设置才能处理404错误，但不能处理其他错误。我想要处理404错误的原因是，有时我故意输入不存在的页面的urls，但我可以处理这些urls，并在内部重定向到真正的页面。这很好用，但是，我不想处理其他页面。相反，我希望加载标准的“非自定义”错误，这样我就可以识别页面的错误所在，并查看导致错误的行号。但是，当我

浏览 0提问于2012-08-18得票数 1

回答已采纳

3回答

停止对404的RestTemplate日志记录警告

、、

我们有一个基于服务的平台(/common)，在那里找不到资源--例如，用错误的用户名调用安全模块将返回404 not，这是用户每次在登录框中输入错误时都会发生的事情。我们在这些调用中使用，这很好，但是每次遇到404时，它都会尽职尽责地记录一个正在垃圾处理日志的警告。我们显然不想禁止警告，除非在具体的404未找到的情况下，但似乎没有一种方法可以做到这一点(记录器是私有/最终的，调用它的方法是私有的，等等)。我们的解决

浏览 0提问于2013-11-22得票数 0

回答已采纳

1回答

更改ui-视图模板而不更改URL

、

.html'}当我输入/badurl时，会显示出预期的404错误。当我输入/item/123时，将查询应用程序的API以获得具有指定标识符的项。它在成功时返回项数据，如果找不到项，则返回404 HTTP头。responseError: function(rejection) { $location.path('

浏览 1提问于2014-09-08得票数 1

回答已采纳

2回答

Python水瓶-蓝图错误处理

、

我正在使用烧瓶，我有我的包的特点和使用的蓝图，这是很好的工作，但我想有一个全局404和错误页面，它位于任何特定的功能包之外。当我触发404烧瓶时，仍然使用默认的404处理程序来处理这个问题，而且我没有得到我的自定义模板。Blueprint @mod_error.errorhandler(

浏览 1提问于2019-11-06得票数 1

回答已采纳

9回答

如何获取失败的URL？

、、、

我是scrapy的新手，它是我所知道的令人惊叹的爬虫框架！在我的项目中，我发送了超过90,000个请求，但其中一些请求失败了。我将日志级别设置为INFO，我只能看到一些统计信息，但看不到详细信息。

浏览 1提问于2012-12-05得票数 49

回答已采纳

2回答

有没有办法为错误响应代码设置全局axios配置？

、、、

我在react/redux应用程序中使用axios，当我遇到401、404等错误时，当我调用axios时，我必须为每个操作函数处理它们。，比如401,404，等等。response }) // deal with errors }但在catch代码块中，我不想每次都要处理40

浏览 2提问于2016-10-14得票数 14

回答已采纳

1回答

如何在Angular SPA (非Angular Universal)中输出http状态代码404

、、、

如果在我的angular应用程序中找不到路由，我想发送http状态代码404。直接使用angular是不可能的，因为它是一个SPA。我如何告诉一个搜索引擎优化爬虫，一个没有找到的路线是404？

浏览 0提问于2021-03-05得票数 1

5回答

在Win2k8 R2 x64上处理Win2k8 10中的404错误问题？

、、、、

我在使用IIS中的自定义错误处理程序(Execute )正确处理ColdFusion 10中的R2 10中的404错误时遇到了困难。我在CF的早期版本中做到了这一点，没有任何问题。在IIS中，在网站特性下，我打开“错误页”，并将其设置为对所有404个错误执行"/404.cfm“。我遇到的问题是，40

浏览 7提问于2013-02-28得票数 3

2回答

Spring Boot -用于处理JSON或HTML的错误控制器

、、、

我有一个自定义的错误控制器，它被映射到使用ErrorPage映射。映射在很大程度上基于HTTP状态代码，通常只是适当地呈现HTML视图。( HttpServletRequest request ) { } 这很好用-如果我只是输入一个随机的不存在的URL，那么它就会呈现404页面。，以便作为JSON提供错误服务，所以如果我在/api/下输入一个随机不存在的URL。然后返回404 JSON响

浏览 0提问于2015-04-17得票数 7

回答已采纳

1回答

如何使用Jsoup从404重定向

、、

如果我把URL放在浏览器中，我就会到达那个重定向的站点。然而，Jsoup只是返回一个“HTTPErroringURL.Status=404”错误。有什么建议吗？

浏览 24提问于2015-11-18得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当我不想处理所有404错误时，如何在Scrapy中返回404错误？

相关·内容

当我不想处理所有404错误时，如何在Scrapy中返回404错误？

如何检查刮伤中的断链？

访问IIS7 404重定向页面中的原始URL

在使用httpErrors自定义404错误时需要保留HTTP状态代码在上使用responseMode executeURL

Laravel 4处理404错误

如何在Ajax错误中抛出404错误，以便指向默认的404行为？

Apache:重定向404和ErrorDocument 404差异

在刮取Scrapy时，每个URL的HTTP响应代码

在IIS/..net中伪造Http Sub状态代码以进行测试

无法重定向到自定义错误页

是否可以仅在ASP.Net中处理404错误？

停止对404的RestTemplate日志记录警告

更改ui-视图模板而不更改URL

Python水瓶-蓝图错误处理

如何获取失败的URL？

有没有办法为错误响应代码设置全局axios配置？

如何在Angular SPA (非Angular Universal)中输出http状态代码404

在Win2k8 R2 x64上处理Win2k8 10中的404错误问题？

Spring Boot -用于处理JSON或HTML的错误控制器

如何使用Jsoup从404重定向

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐