Scrapy HTTP状态代码未处理或不允许

Scrapy是一个用于爬取网站数据的Python框架，它基于异步处理和多线程技术，提供了丰富的功能和工具，方便开发者进行网页抓取和数据提取。

HTTP状态代码未处理或不允许是指在Scrapy框架中，爬虫未处理或不允许的HTTP状态代码。HTTP状态代码是指在进行网页请求时，服务器返回的状态码，用于表示请求的处理结果。常见的HTTP状态代码有200（OK）、404（Not Found）、500（Internal Server Error）等。

在Scrapy中，默认情况下，只有200状态码被视为有效响应，其他状态码（如404、500等）会被忽略或直接抛出异常。这意味着爬虫只会处理返回200状态码的网页，而对于其他状态码的网页，则需要开发者根据具体情况进行处理。

要处理或允许特定的HTTP状态代码，可以通过编写Scrapy的中间件（Middleware）来实现。中间件是Scrapy框架中用于对请求和响应进行处理的组件，可以拦截和修改请求和响应，从而实现自定义的处理逻辑。

对于HTTP状态代码未处理或不允许的情况，开发者可以编写一个中间件来处理。具体步骤如下：

创建一个自定义的中间件类，继承自Scrapy提供的Middleware类。
在中间件类中，实现process_response方法。该方法会在请求返回响应时被调用。
在process_response方法中，判断响应的状态码是否是未处理或不允许的状态码。如果是，可以进行自定义的处理操作，如重新发送请求、记录日志、忽略该请求等。
将中间件类添加到Scrapy的配置文件中，以启用该中间件。

以下是一个示例的中间件类，用于处理HTTP状态代码未处理或不允许的情况：

from scrapy import signals
from scrapy.exceptions import IgnoreRequest

class HttpStatusCodeMiddleware:
    def __init__(self, allowed_status_codes=None):
        self.allowed_status_codes = allowed_status_codes or []

    @classmethod
    def from_crawler(cls, crawler):
        middleware = cls(crawler.settings.getlist('HTTP_STATUS_ALLOWED_CODES'))
        crawler.signals.connect(middleware.spider_opened, signal=signals.spider_opened)
        return middleware

    def spider_opened(self, spider):
        spider.logger.info('HttpStatusCodeMiddleware: Allowed status codes: %s',
                           self.allowed_status_codes)

    def process_response(self, request, response, spider):
        if response.status not in self.allowed_status_codes:
            spider.logger.warning('HttpStatusCodeMiddleware: Ignoring response with status code %d: %s',
                                  response.status, request.url)
            raise IgnoreRequest()
        return response

在Scrapy的配置文件（settings.py）中，需要添加以下配置项：

HTTP_STATUS_ALLOWED_CODES = [404, 500]
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.HttpStatusCodeMiddleware': 543,
}

以上示例中，我们设置了允许处理的状态码为404和500，其他状态码的响应将被忽略。你可以根据实际需求，自定义允许处理的状态码列表。

推荐的腾讯云相关产品：腾讯云云服务器（CVM）用于部署Scrapy框架，腾讯云CVM提供高性能、稳定可靠的云服务器资源，满足Scrapy爬虫的运行需求。详细信息请参考腾讯云云服务器产品介绍：腾讯云云服务器

请注意，以上回答仅针对Scrapy框架中处理HTTP状态代码未处理或不允许的问题，具体的使用和实现方式还需要根据实际情况和需求进行调整。

为什么错误信息不能记录到指定的文件中？

、

平台:debian 8+python 3.4+Scrapy 1.3.2这里是我的蜘蛛从yahoo.com下载一些urls import scrapy import csv class TestSpider(scrapy.Spider): name = "quote" allowed_domains = ["yahoo.com"] start_urls = ['url1','url2','url3',,,,'urls100'] def parse(se

浏览 1提问于2017-02-20得票数 0

4回答

Scrapy: HTTP状态码不被处理还是不被允许？

、、

我想在类别中获得产品标题，链接，价格但失败"HTTP状态码未处理或不允许“：我的文件: spiders/tiki.py import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from stackdata.items import StackdataItem class StackdataSpider(CrawlSpider): name = "tiki" allowed_dom

浏览 9提问于2017-10-15得票数 18

1回答

如何修正416 <Get错误在抓取蟒中的应用

、、

嗨，大家好，我想刮所有的名字，但是当我运行我的代码时，我得到了这个错误： 2019-08-25 23:08:10 [scrapy.core.engine] DEBUG: Crawled (416) <GET https://www.manta.com/distil_r_blocked.html?requestId=e243a58b-d46d-4d12- HTTP status code is not handled or n ot allowed 代码： import scrapy class project(scrapy.Spider): name = 'proje

浏览 0提问于2019-08-25得票数 0

回答已采纳

1回答

无法使脚本进程以正确的方式在本地创建服务器响应

、、、、

我使用了一个脚本在本地运行selenium，这样我就可以在我的蜘蛛中使用响应(派生自selenium)。这是selenium在本地运行的web服务： from flask import Flask, request, make_response from flask_restful import Resource, Api from selenium import webdriver from selenium.webdriver.chrome.options import Options app = Flask(__name__) api = Api(app) class Seleni

浏览 0提问于2019-05-17得票数 6

1回答

Scrapy和python: DNS查找失败:主机名查找没有结果-代理问题？

、、、

我正在尝试使用Scrapy和Python从我公司的IT和网络中抓取一些页面。我从这里的开始使用scrapy教程。当我尝试与教程页面上的代码相同的代码时，我得到错误： 2018-01-24 11:49:04 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://quotes.toscrape.com/robots.txt> (failed 1 times): DNS lookup failed: no results for hostname lookup: quotes.toscrape.com. 因此，

浏览 36提问于2018-01-24得票数 1

1回答

Scrapy shell运行正常，但实际脚本返回404错误

、、、

scrapy shell http://www.zara.com/us 返回正确的200代码 2017-01-05 18:34:20 [scrapy.utils.log] INFO: Scrapy 1.3.0 started (bot: zara) 2017-01-05 18:34:20 [scrapy.utils.log] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'zara.spiders', 'ROBOTSTXT_OBEY': True, 'DUPEFILTER_CLASS

浏览 0提问于2017-01-06得票数 1

1回答

为什么scrapy在特定的站点上不能工作？

、、、

我正在尝试为usnews.com写一个蜘蛛，代码和错误如下。 class USMethodologySpider(scrapy.Spider): """ Парсинг методологии US """ name = 'US_Methodology_Spider' def start_requests(self): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.

浏览 20提问于2020-11-23得票数 0

1回答

粘在擦伤下面的链接从subreddits

、、、

我正在抓取编辑，以获得每个条目的链接在一个分编辑。我也想跟随与http://imgur.com/gallery/\w*匹配的链接。但我有问题要帮伊姆古尔打回电话。它就是不执行。什么失败了？我用一个简单的if "http://imgur.com/gallery/" in item['link'][0]:语句来检测Imgur，也许scrapy提供了一个更好的方法来检测它们？这就是我试过的： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors i

浏览 3提问于2015-10-09得票数 1

回答已采纳

1回答

刮除文件管道不下载文件

、、

我的任务是建立一个网络爬虫，下载所有的.pdf在一个给定的网站。蜘蛛运行在本地机器和刮擦轮毂上。出于某种原因，当我运行它时，它只下载一些而不是所有的pdfs。通过查看输出JSON中的项就可以看出这一点。我已经设置了MEDIA_ALLOW_REDIRECTS = True，并尝试在scrapinghub上运行它以及在本地运行它。这是我的蜘蛛 import scrapy from scrapy.loader import ItemLoader from poc_scrapy.items import file_list_Item from scrapy.spiders import Crawl

浏览 0提问于2019-07-16得票数 1

回答已采纳

1回答

另一方拒绝连接: 111:连接被拒绝

、、

我为LinkedIn准备了一只蜘蛛。它在我的本地机器上运行良好，但是当我在Scrapinghub上部署时，我得到了错误： Error downloading <GET https://www.linkedin.com/>: Connection was refused by other side: 111: Connection refused. Scrapinghub的完整日志是： 0: 2018-08-30 12:58:34 INFO Log opened. 1: 2018-08-30 12:58:34 INFO [scrapy.log] Scrapy 1.0.

浏览 0提问于2018-08-30得票数 1

回答已采纳

1回答

连接被拒绝错误61: Scrapy+splash Docker

、、、

我在抓取javascript站点时遇到了一些问题。我使用scrapy-splash和docker来渲染js到html来抓取。 import scrapy from scrapy_splash import SplashRequest class MySpider (scrapy.Spider): name = 'spd' start_urls = ['http://example.com'] def start_requests (self): for url in self.start_url

浏览 4提问于2017-05-31得票数 0

1回答

未调用scrapy parse_item方法

、

这是我的代码。我的parse_item方法没有被调用。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector class SjsuSpider(CrawlSpider): name = 'sjsu' allowed_domains = ['sjsu.edu'] st

浏览 0提问于2012-02-28得票数 3

回答已采纳

2回答

使用Python Scrapy时的HTTP 403响应

、、

我在64位Windows Vista上使用的是Python.org 2.7版。我一直在测试下面的Scrapy代码，以递归地抓取www.whoscored.com站点上的所有页面，该站点用于足球统计： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector from scrapy.item import Item from scrapy.spid

浏览 0提问于2014-07-18得票数 11

回答已采纳

1回答

网站禁用爬虫后抓取一些链接

、、

我对scrapy有点问题。当我使用scrapy spider访问网站时。20-30分钟后，网站阻止我的爬虫。Scrapy总是返回500个代码。(DELAY_TIME = 10s) 但如果我停止scrapy并立即启动它。它可以正常爬行。我想这个网站阻止一个会话可以浏览多个页面？当scrapy运行时，我如何改变它的会话？或者解决这个问题？

浏览 0提问于2013-04-10得票数 0

回答已采纳

1回答

如何连接本地主机？

、、、、

我是新来的，我正在学习颤栗，我需要用这个登录： POST 但我仍然不能登录:(我在等待5分钟，仍然有一个加载屏幕，没有任何影响。我试过了所以我用这个教程制作了一个api_service 这是我的api_service.dart import 'package:http/http.dart' as http; import 'dart:convert'; import '../model/login_model.dart'; class APIService { Future<LoginResponseModel> logi

浏览 3提问于2021-05-21得票数 1

3回答

Scrapy在启动时不加载HttpProxyMiddleware

、、、、

我已经创建了一个新项目，如下所示 scrapy startproject test scrapy genspider test1 example.com 并按如下方式更改settings.py： # -*- coding: utf-8 -*- # Scrapy settings for test project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the docume

浏览 2提问于2017-02-16得票数 1

回答已采纳

1回答

Scrapy:带有特定HTTP服务器代码的捕获响应

、、、

我们有一个标准的Scrapy项目(Scrapy0.24)。我想捕捉特定的HTTP响应代码，例如200、500、502、503、504等等。就像这样： class Spider(...): def parse(...): processes HTTP 200 def parse_500(...): processes HTTP 500 errors def parse_502(...): processes HTTP 502 errors ... 我们怎么能做到呢？

浏览 1提问于2015-06-04得票数 10

回答已采纳

1回答

如何从scrapy-splash中获取200以外的状态代码

、、、

我试图得到请求状态代码与刮痕和刮擦-飞溅，下面是蜘蛛代码。 class Exp10itSpider(scrapy.Spider): name = "exp10it" def start_requests(self): urls = [ 'http://192.168.8.240:8000/xxxx' ] for url in urls: #yield SplashRequest(url, self.parse, args={'wai

浏览 14提问于2017-10-19得票数 3

回答已采纳

1回答

被重定向到其他网站后出现scrapy (或selenium)冻结

、、

我正在使用Selenium运行scrapy CrawlSpider，我遇到了一些奇怪的问题。蜘蛛爬行了一段时间，然后就僵住了--看起来什么都没做，或者卡在了一个点上。我一直遇到这个问题，所以为了强行阻止爬虫，我不得不杀死PhantomJS驱动程序。我的爬虫在外部站点上工作得很漂亮，但每次我在我的定制本地主机网站上尝试它时，蜘蛛都会冻结。以下是错误日志： scrapy crawl image -o test.csv -t csv 2013-12-19 18:12:43-0700 [scrapy] INFO: Scrapy 0.20.2 started (bot: cultr) 2013-12-1

浏览 5提问于2013-12-20得票数 1

1回答

刮除-提交表格与刮除其他网站的结果

、

我正试图用我在另一个电视指南网站上刮过的电影来刮themoviedb.org网站。其背后的想法是获得电影信息(评级，发行日期，.)将在未来几天上映的电影。因此，我从第一个网站上刮起电影标题，并希望通过使用themoviedb.org上的搜索表单获得额外的信息。 def parse(self, response): for col_inner in response.xpath('//div[@class="grid__col__inner"]'): chnl = col_inner.xpath('.//div[@clas

浏览 0提问于2015-10-25得票数 0

回答已采纳

1回答

webscrape我需要登录LinkedIn才能进行网络抓取(刮伤)

、、、

我目前正在为Linkedin创建一个网络刮刀，但是LinkedIn阻止我的机器人抓取数据，因为我没有登录到任何帐户。我的目标基本上是刮掉公司提供的任何工作机会，但我的问题主要是在代码的登录方面。我在Python3.x上使用scrapy和formrequest。因此，我在网上寻找解决方案，表单请求包似乎是我需要的答案。然而，经过几次尝试，它仍然不起作用。 import scrapy from scrapy.http import FormRequest from scrapy.utils.response import open_in_browser from ..items import

浏览 1提问于2019-05-27得票数 2

1回答

在Linkedin上爬行0页

、、

我想在LinkedIn上使用Scrapy，但是我得到了这样的输出： 2018-10-23 13:36:38 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: scrapybot) 2018-10-23 13:36:38 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.0, w3lib 1.19.0, Twisted 18.9.0, Python 3.7.1 (v3.7.1:260ec2c36a, Oct 2

浏览 0提问于2018-10-23得票数 0

1回答

从响应数据更新Redux状态

、、、、

我有一个登录/注册系统为我的反应应用程序。我希望将user状态设置为fetch之后接收的响应。密码是这样的- export const userSlice = createSlice({ name: "user", initialState: { user: null, }, reducers: { login: (state, action) => { fetch("http://localhost:5000/user/login", { method: "POST",

浏览 2提问于2020-11-03得票数 0

2回答

Scrapy忽略响应303 -未处理或不允许HTTP状态代码

、、、

我想从上搜集评论当我尝试抓取时，它首先将我重定向到。我已经编程我的蜘蛛不服从robot.txt，禁用cookies，尝试meta=dont_redirect。现在它没有将我重定向到，但现在我收到响应“忽略响应<303 >：HTTP状态码未处理或不允许”，我该如何解决这个问题。我的爬虫代码如下： import scrapy class CommentsSpider(scrapy.Spider): name = 'comments' allowed_domains = ['m.youtube.com'

浏览 5提问于2019-07-18得票数 0

1回答

需要覆盖来自asmx web服务的Http响应代码

、、、、

我的web服务支持flex/flash客户端，并在未处理的异常时抛出扩展System.ServiceModel.FaultException的自定义错误。我被告知，如果http响应码与200不同，flex/flash就无法读取这些自定义错误。这记录为flex/flash错误：我需要在未处理的异常上重写http返回代码。我曾尝试通过在global.asax中包含此代码来实现此目的(此技巧已作为变通方法记录在案)： protected void Application_PreSendRequestHeaders(object sender, EventArgs e) { if (Res

浏览 1提问于2009-04-29得票数 2

回答已采纳

1回答

如何解析未处理或不允许的启动405 https://www.controller.com/listings/aircraft/for-sale/list>：HTTP状态码

、、

我正在尝试使用Scrapy-Splash访问网站，但忽略响应<405 https://www.controller.com/>时出现错误405 : HTTP状态码未处理或不允许我使用的代码 import scrapy from scrapy_splash import SplashRequest class ProxySpider(scrapy.Spider): name = "proxyss" def start_requests(self): urls = [ 'https://contro

浏览 6提问于2020-08-15得票数 3

1回答

通过凭据登录后，无法在LinkedIn上爬网数据

、、

我正在尝试从linkedin中添加了我的群组中抓取成员列表。尽管当我运行我的代码时，我没有得到任何响应/值。还有一大堆错误。我已经验证了我的Parse代码，它看起来很好。这是我的代码： import scrapy from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import Request from scrapy.http import FormRequest class LoginSpider(BaseSpider): nam

浏览 10提问于2018-08-03得票数 2

1回答

无法从Scrapy中返回的请求获得响应

、、、、

我只想把url传递给另一个解析器。它没有像文档中所示的那样工作，所以我已经将我的代码降到了最小，但还是什么也没有。也用产率试验 # -*- coding: utf-8 -*- import scrapy import cfscrape from scrapy.spiders import Spider import json rez=[] class LinkbaseSpider(Spider): name = "mine" allowed_domains = ["127.0.0.1"] start_urls = ( 'file://127

浏览 2提问于2015-07-19得票数 2

回答已采纳

1回答

刮伤重定向302

、

我只是爬到一个websit.but重定向炭疽页面。在蜘蛛里我增加了 handle_httpstatus_list = 302,301 并覆盖start_requests方法。但问题是 AttributeError: 'Response' object has no attribute 'xpath' 蜘蛛代码： # -*- coding=utf-8 -*- from __future__ import absolute_import from scrapy.linkextractors import LinkExtractor from scrapy.s

浏览 5提问于2016-06-14得票数 0

1回答

如何使用我的CrawlSpider将相对路径转换为绝对路径？

、、

目前我的CrawlSpider代码是： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class HiddenAnswersSpider(CrawlSpider): name = 'ha' start_urls = ['http://answerstedhctbek.onion/questions'] allowed_domains = ['http://answ

浏览 0提问于2017-11-11得票数 0

2回答

在RESTful API中返回HTTP500好吗？

编写HTTP服务器时，通常不会在代码中返回HTTP500。在我的观点中，HTTP 500错误意味着：某些超出您控制范围的情况/异常。您没有意识到错误可能会发生。如果您意识到可能会发生一些错误，您将始终可以找到其他一些HTTP代码来表示它。例如503。因此，我不喜欢手动返回HTTP 500。在这种情况下，如果发生500，那么我知道这是一些未处理的异常。这是个好做法吗？

浏览 2提问于2019-08-29得票数 2

1回答

向Scrapy中的发送Ajax请求

、、、

我正在努力刮刮网站。查看源页面就会发现，每当页面加载时，表单都会从服务器接收VarsSessionID。单击继续按钮时，表单将向发送AJAX请求。webservice返回一个重定向到显示搜索结果的新url。我已经实现了我的刮伤蜘蛛，以至于提交了ajax post请求，如下所示： import scrapy from scrapy.http import * from scrapy.selector import Selector import json from scrapy.utils.response import open_in_browser class TestSpider(

浏览 3提问于2017-05-02得票数 0

1回答

使用Scrapy获取域名的HTTP状态码需要做哪些更改？

、、、

我从我之前的实验中得到了这段代码。 import scrapy class BlogSpider(scrapy.Spider): name = 'blogspider' start_urls = ['http://example.com/'] def parse(self, response): for title in response.css('h2'): yield {'Agent-name': title.css('a ::text').e

浏览 0提问于2017-02-01得票数 0

2回答

刮擦在shell中工作，但是爬行0页。

、

我使用scrapy解析以下站点：。当我一步一步地对shell进行解析时，一切都很好，也就是说，这一行工作如下： response.xpath("//script[contains(., 'banksData')]/text()").re(r'"name":"(.*?)","code"') 但当我开始爬行的时候，我就得到了跟踪日志。 2017-06-16 20:59:27 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: banksru) 2017

浏览 5提问于2017-06-16得票数 1

回答已采纳

3回答

为什么scrapy要爬行一个不同的facebook页面？

、、

这是一个scrapy div爬行器，用于收集所有spider.This节点的名称，属性为5d-5，实质上是从y位置创建所有x名称的人的列表。 import scrapy from scrapy.selector import Selector from scrapy.http import HtmlResponse class fb_spider(scrapy.Spider): name="fb" allowed_domains = ["facebook.com"] start_urls = [

浏览 20提问于2016-08-15得票数 0

2回答

使用Python/Scrapy返回HTTP 500代码的进程页面

、、

我有问题，以访问一些网站，返回HTTP500代码以及正确格式化的HTML页面。所以，我可以用Chorme/Firefox下载页面，但不能用Scrapy下载。抓取日志： 2020-04-10 15:57:16 [scrapy.core.engine] INFO: Spider opened 2020-04-10 15:57:16 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2020-04-10 15:57:16 [scrapy.ex

浏览 95提问于2020-04-10得票数 0

回答已采纳

2回答

刮除: 403错误对所有请求

、、、

我的刮痕爬虫使用，它在我的电脑上工作。但是，当我在vps上运行它时，它会在每个请求上返回403错误。 2018-05-26 09:43:18 [scrapy.proxies] DEBUG: Proxy user pass not found 2018-05-26 09:43:18 [scrapy.proxies] DEBUG: Using proxy <http://104.237.210.29:2716>, 20 proxies left 2018-05-26 09:43:19 [scrapy.downloadermiddlewares.retry] DEBUG: Retryin

浏览 2提问于2018-05-26得票数 0

回答已采纳

1回答

Scrapy和shell使用相同的xpath查询返回不同的结果。为什么？

、、、

当我在scrapy bot和scrapy shell中执行相同的xpath查询时，会得到不同的结果。注意:我只是试着学习刮刮，所以修改了一些教程代码。请跟我慢慢走。查询： xpath('//div/div/div/ul/li/a/@href') 机器人： import scrapy from tutorial.items import DmozItem class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["lib-web.org"] s

浏览 2提问于2015-11-10得票数 1

回答已采纳

1回答

Scrapy错误:未处理或不允许HTTP状态代码

、

我有一个问题，当运行蜘蛛。当我抓取它时，它显示的错误是这样的："HTTP状态码未处理“。 2018-08-27 14:30:58 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://id.priceprice.com/harga-hp/%3Ca%20href=%22/harga-hp/?maker=OPPO-182%22%3EOPPO%3C/a%3E> (referer: http://id.priceprice.com/harga-hp/) 2018-08-27 14:30:58 [scrapy.spidermidd

浏览 41提问于2018-08-27得票数 1

回答已采纳

1回答

不处理或不允许使用HTTP状态代码。

、

我需要使用Scrapy爬行一个带有cookie的站点，但是返回错误。代码在这里 class XueqiuSpider(scrapy.Spider): name = "xueqiu" start_urls = ["https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=1&size=1"] delimiter = ',' quotechar = '"' headers = ["sy

浏览 2提问于2017-03-02得票数 2

1回答

芹菜不解析CSV文件

、、、、

任务本身立即启动，但它尽快结束，我没有看到任务的结果，它根本没有进入管道。当我编写代码并使用scrapy crawl <spider_name>命令运行它时，一切都正常工作。我在吃芹菜的时候遇到了这个问题。我的芹菜工人原木： [2021-02-13 14:25:00,208: INFO/MainProcess] Received task: crawling.crawling.tasks.start_crawler_process[dece5127-bdfe-47d1-855e-ffc06d5481d3] [2021-02-13 16:25:00,867: INFO/Fork

浏览 4提问于2021-02-13得票数 0

回答已采纳

1回答

在http代码上调用process_exception

、、

我想改变代理服务取决于http响应代码(例如。在code=500或404上，我希望触发process_exception以更改代理地址。我已经创建了我自己的proxyMiddleware，我在process_request中设置了代理，也为ex设置了代理。当超时代理出现时，默认情况下调用process_exception。但是如何在自定义http状态下触发它呢？从刮伤的医生那里：当下载处理程序或process_request() (从下载器中间件)引发异常(包括IgnoreRequest异常)时，Scrapy调用IgnoreRequest() 但我不知道如何做到这一点。编辑我的蜘

浏览 2提问于2015-03-26得票数 2

1回答

不处理或不允许501号错误ScraPy - HTTP状态代码

、、

上面有错误。只在403或404所讨论的错误上运行。下面是一些我试着让它发挥作用的东西。将user_agent编辑为我的字符串检查了Reddit的robots.txt，但在爬行参数上没有不允许尝试调整URL和域(不起作用) 刮擦外壳..same错误，但没有解释网站在笔记本电脑上使用我的浏览器。选中http 501，引用“未实现”或服务器不支持功能。和错误字段 2019-04-07 17:34:00 [scrapy.middleware] INFO: Enabled item pipelines: [] 2019-04-07 17:34:00 [scr

浏览 0提问于2019-04-07得票数 1

回答已采纳

2回答

Scrapy 404错误:未处理或不允许HTTP状态代码

、

我正在尝试使用scrapy抓取站点coursetalk，我首先尝试了爬虫模板，但得到了一个404错误： 2017-12-29 23:34:30 [scrapy] DEBUG: Ignoring response <404 https://www.coursetalk.com/subjects/data-science/courses/>: HTTP status code is not handled or not allowed 这是我使用的代码： import scrapy class ListaDeCursosSpider(scrapy.Spider): name

浏览 17提问于2017-12-30得票数 6

1回答

刮擦错误信号-在刮擦时没有给出任何信息。

、

我正在做一些刮擦(Scrapy1.3.3)，并验证刮伤是否成功/不成功--使用spider_opened和spider_closed的Scrapy信号。用于spider_closed 的extensions.py代码的一部分 logger = logging.getLogger(__name__) class SendEmail(object): def __init__(self): self.fromaddr = FROMADDR self.toaddr = TOADDR @classmethod def from_crawler(cls, crawler):

浏览 2提问于2017-08-01得票数 0

1回答

抓取Justdial

、

我想从Justdial中抓取学校名称、地址和电话号码的数据。我已经准备好脚本了。我使用Scrappy和selenium。但是，我从Justdial服务器收到HTTP错误403(禁止)和504(网关超时)。上面写着访问被拒绝。对于任何其他网站，当我使用scrappy使用fetch时，我们可以获得源代码，但对于Justdial，它显示访问被拒绝。 import scrapy class JustSpider(scrapy.Spider) : name = 'school' start_urls = [ 'https://www.justdial.com/Delh

浏览 17提问于2021-10-07得票数 0

3回答

哪个Http错误/状态代码是合适的？

、

我仔细阅读了所有HTTP错误/状态代码，但仍不清楚在以下场景中哪种代码适合返回：请求是Ajax请求，因此错误情况的处理取决于客户端javascript代码，最好它会发出通知。在服务器端发生意外错误(例如DB操作失败)，但是异常由服务器端处理，并在那里创建适当的错误消息(作为字符串)。 “意外错误”意味着HTTP 500，但是我想区分真正的服务器内部(和未处理)错误，并处理我前面描述的用例。哪个Http错误/状态代码是合适的？请求查询(使用GET)或某些更新(使用POST)是否重要？

浏览 3提问于2015-06-17得票数 4

回答已采纳

3回答

抓取图像，空响应[抓取]

、、

我使用了一个使用scrapy进行图像抓取的例子。但是我没有在我的计算机上保存任何文件：这是我使用的代码： //Items.py// import scrapy class ImgurItem(scrapy.Item): title = scrapy.Field() image_urls = scrapy.Field() images = scrapy.Field() //settings.py// BOT_NAME = 'imgur' SPIDER_MODULES = ['imgur.spiders'] NEWSPIDER_MOD

浏览 0提问于2016-01-18得票数 0

1回答

从scrapy shell获取https响应

、、、

我有一个蜘蛛，它是从一个网站在最初的几个步骤的cookies。我想要获取cookies，开始抓取，如果当前请求== 302的HTTP状态，我想循环回cookies部分以刷新它们。如何将HTTP状态记录为scrapy shell中的一个变量，以添加"if http_status ==302，break and back to step 1"？谢谢!

浏览 5提问于2020-11-14得票数 0

1回答

使用scrapy生成项目

、

我的蜘蛛有问题，我设置它的方式似乎不起作用。蜘蛛应该能够抓取多个页面(1,2,3)，所有这些页面都在同一个网站上。我不确定是否应该执行for循环或if/else语句，以便提取所有数据？在运行代码后，我得到了以下代码:爬行0页(以0页/分钟)，抓取0项(以0项/分钟)。任何帮助都将不胜感激！下面显示了爬行器、items.py和pipelines.py的代码： class abcSpider(scrapy.Spider): name = 'abc' page_number = 2 allowed_domains = [''] def parse(self,

浏览 10提问于2020-04-23得票数 0