如何在Scrapy中修复403响应_如何修复praw中的禁止:接收到403 HTTP响应？_如何在HTTP 403响应中获取自定义错误响应文本 - 腾讯云开发者社区

python、scrapy

http://prntscr.com/o56670 请查看截图我正在使用python 3并在我的终端上使用scrapy。fetch("https://angel.co/adil-wali") 当请求链接时，它以403响应。所以我已经改变和轮换了用户代理和机器人，但仍然显示403响应，所以这次我购买了爬虫计划，但爬虫仍然说523响应您知道为什么在scrapy shell中

浏览 5提问于2019-06-22得票数 0

回答已采纳

1回答

Python没有为某些页面获取任何内容

python、http、web-scraping、scrapy、scrapy-spider

我正试图从offerup.com和刮壳中获取一些信息，什么都没有。我将键入：它会出现在那里，但如果我只想得到整个网页的文本，就可以：它回来了，没有任何其他信息，我试图得到的回应，如标题。

浏览 4提问于2017-07-26得票数 0

1回答

刮破壳不返回任何东西。

python、html、css、web-scraping、scrapy

我尝试了刮壳( scrapy shell )提取第一个组织名称，腾讯控股()控股，并在response.css('div.flex-no-grow.cb-overflow-ellipsis.identifier-label::text').extract_first()中用scrapy编写了刮除命令，这个命令什么也没有返回。

浏览 1提问于2018-07-13得票数 0

1回答

将刮伤改为刮红后，启动url头改变。

scrapy、header

我有一个刮伤项目，我想将它修改为scrapy :主要的刮伤文件如下： name = 'ScrapyBot' callback=self.parse}该请求在Scrapy中运行良好，但在添加scrapy-redis部件后，开始请求中的头(从F

浏览 2提问于2022-03-29得票数 0

1回答

Scrapy不进入parse()

python-3.x、scrapy

import scrapy name = 'idealistaspider'2020-05-09 16:39:27 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scrapedon 127.0.0.1:6023 2020-05-09 16:39:27 [scrap

浏览 1提问于2020-05-09得票数 2

1回答

刮破壳和刮痕没有收到403，但刮刮爬行工程。

python、scrapy

DEFAULT_REQUEST_HEADERS = {} 当我在项目文件夹中尝试scrapy shell url时(其中一个文件夹有scrapy.cfg)，这意味着它在settings.py文件中使用相同的设置，我可以看到referer在请求中，但是我得到了一个403响应。scrapy.core.engine调试:爬行(403

浏览 3提问于2018-09-06得票数 0

1回答

如何解决网络刮伤中的双403响应问题

python、scrapy、header

我试过的是：但是，当我试图首先运行代码时，我得到了响应403，然后我尝试通过在请求start_urls时添加标题来修复它，就像我从一些答案中看到的那样我做到了，但是我的脚本给了我错误，当它进入到我需要的所有信息在那里的潜艇url时，它说响应403。我的当前代码如下from scrapy import Request from scrapy.cra

浏览 2提问于2022-07-19得票数 0

回答已采纳

1回答

scrapy https proxy 403错误-在curl中工作

python、http、https、proxy、scrapy

-08-15 18:57:20 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://www.sslproxies.org/> (referer:None) 2017-08-15 18:57:20 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://] INFO: Closing spider (finis

浏览 15提问于2017-08-16得票数 0

1回答

如何用Scrapy重新安排403响应页？

python、scrapy

偶尔，我在使用Scrapy2.4.1抓取页面时得到403个响应。下载中间件设置为5次尝试，并在第5次尝试之后放弃：2021-02-06 01:44:17 [scrapy.spiderm

浏览 3提问于2021-02-07得票数 0

1回答

如何在解析期间设置github令牌的自动更改？

web-scraping、scrapy、github-api

如果我有几个帐户/令牌，GitHub允许您每小时发送不超过2500个请求，如何在达到某个请求级别(例如，2500个请求)时在Scrapy中设置自动令牌更改，或者在响应403时对令牌进行更改。class GithubSpider(scrapy.Spider): start_urls = ['https://github.com']

浏览 8提问于2021-12-15得票数 1

回答已采纳

1回答

Scrapy到底在哪里做html请求呢？

python、web-scraping、scrapy

我在Python3中使用Scrapy (Scrapy==1.6.0)库。我想知道，在代码中Scrapy实际上在哪里做HTML请求？另外，响应的确切位置也是一样的？现在我的爬行器找不到任何页面，所以我想我要么得到一个空白的HTML文档，要么得到一个403错误，但是我不知道从哪里去确认这一点。熟悉scrapy库的人能告诉我在代码中我可以检查这些参数的确切位置吗？

浏览 12提问于2019-03-14得票数 0

2回答

使用Python Scrapy时的HTTP 403响应

python、http、scrapy

我一直在测试下面的Scrapy代码，以递归地抓取www.whoscored.com站点上的所有页面，该站点用于足球统计：from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom sc

浏览 0提问于2014-07-18得票数 11

回答已采纳

1回答

Scrapy即使用硒也会被阻止，而硒本身不会吗？

selenium、web-scraping、scrapy、http-status-code-403

Scrapy本身并不起作用(我得到了HTTP403)，这让我相信有一些基于UI的对策(例如，检查解决方案)。 link_next.click() break self.driver.close()

浏览 0提问于2017-01-14得票数 0

1回答

如何在Scrapy项目中使用Privoxy和Tor

python、proxy、scrapy、privoxy

我正在尝试从中抓取，但目前我无法在浏览器中访问该站点，因为它的所有者禁止了我的IP地址(见下文)。我试图通过使用Privoxy和Tor来解决这个问题，类似于在中所描述的。我在/etc/privoxy/config中添加了下面一行kurt@kurt-ThinkPad:~$ wget www.apkmirror.c

浏览 10提问于2017-04-24得票数 2

回答已采纳

1回答

在刮取Scrapy时，每个URL的HTTP响应代码

python、web-scraping、scrapy、response、http-response-codes

被刮掉的URL数量和获得200个响应状态的URL数量是不一样的。另外，我想得到的URL与他们各自的反应。我正在使用Scrapy抓取70000个URL，同时希望通过Scrapy获取每个URL的HTTP响应状态，以便在获取特定URL的内容之后，我们还将获得该URL的响应代码：如何获得相应URL的响应代码？

浏览 1提问于2018-09-03得票数 0

1回答

在Scrapy框架中发送post请求，它不工作，但在python请求中工作，显示403个错误

python、scrapy、scrapy-splash

我面临一个与POST API中的scrapy框架相关的问题。我是通过python请求完成的，但我不理解scrapy框架的问题。我只想把api数据保存在我的系统中，这样我就可以访问所有的酒店名称。蜘蛛： name = 'm' 'COOKIES_ENABLED] INFO: Telnet co

浏览 10提问于2022-02-02得票数 0

1回答

如果URL在响应代码中得到307，如何使它重试？

python-3.x、scrapy

例如,但是我被重定向到RETRY_TIMES=5 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500, 'real_estate.midd

浏览 0提问于2018-05-17得票数 0

回答已采纳

2回答

如何重新安排403* HTTP状态代码，以便稍后在抓取？*

python、web-scraping、scrapy

根据指令，我可以看到HTTP500个错误、连接丢失的错误等总是被重新安排的，但是如果403个错误也被重新安排了，或者它们仅仅被当作一个有效的响应来处理，或者在达到重试限制后被忽略，我就找不到任何地方。也是根据同一指示： 2015-12-07 12:33:42 [scrapy] DEBUG: Ignoring response <40

浏览 2提问于2015-12-07得票数 11

回答已采纳

3回答

基于Python Scrapy* - mimetype的过滤器，以避免非文本文件下载*

python、twisted、mime-types、scrapy

我有一个正在运行的scrapy项目，但是它是带宽密集型的，因为它试图下载大量二进制文件(zip、tar、mp3、..etc)。我查看了代码，发现了以下设置：我当前的安装程序已经损坏了Scrapy服务器，所以请不要尝试使用上面的代码来解决这个问题。scrapper-test/Zend -> /var/www&#x

浏览 5提问于2012-11-15得票数 6

回答已采纳

1回答

挣扎着用Scrapy刮一个网站

python、web-scraping、scrapy

我对火车很感兴趣，我在我的国家铁路公司的网站上没有发现任何CSV数据，所以我决定在Scrapy做网络抓取。但是，当在我的终端中使用fetch命令测试响应时，我一直无意中发现了DEBUG:爬行(403)。我还试图只将USER_AGENT变量设置为一些随机的用户代理，而不引用scrapy-假冒伪劣用户代理。不幸的是，所有这些都没有用。'scrapy.downloadermiddlewares.retry.RetryMiddleware': None, 'scrap

浏览 7提问于2022-10-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云