使用Python/Scrapy返回HTTP 500代码的进程页面

python、web-scraping、scrapy

我有问题，以访问一些网站，返回HTTP500代码以及正确格式化的HTML页面。所以，我可以用Chorme/Firefox下载页面，但不能用Scrapy下载。抓取日志： 2020-04-10 15:57:16 [scrapy.core.engine] INFO: Spider opened 2020-04-10 15:57:16 [scrapy.extensions.logstatshttps:/

浏览 95提问于2020-04-10得票数 0

回答已采纳

2回答

如何使用scrapy捕获错误，以便在遇到用户超时错误时可以执行某些操作？

python、scrapy、twisted

当我使用我的刮刀时，我经常会遇到这个问题。有没有一种方法可以捕捉到这个问题并在它发生时运行函数？我在任何地方都不知道如何在网上做这件事。

浏览 4提问于2015-07-01得票数 19

回答已采纳

1回答

ScrapySlash“掩码”404

scrapy、scrapy-splash

我有一些问题，试图管理404响应与我的蜘蛛。ScrapySlash似乎用200掩盖了404的响应。这是我的密码 request = Request(url, self.parse, meta={: dbid return request 一个简单的print用scrapy shel

浏览 2提问于2017-01-11得票数 1

回答已采纳

1回答

Scrapy重试中间件在非标准http状态代码中失败。

python、parsing、scrapy

我正在使用Scrapy默认RetryMiddleware尝试重新下载失败的URL。我想以这样的方式处理页面，它在响应时获得了429个状态代码(“请求太多”)。在实际重试下载页面之前，试图定义以前失败的原因。因此，response_status_message方法尝试使用状态代码和状态文本创建字符串，例如 '404 N

浏览 3提问于2016-04-26得票数 2

回答已采纳

1回答

如何让scrapy使用url遍历归档文件？

python、python-3.x、scrapy

我正在尝试让一个抓取蜘蛛抓取归档中的几个页面，目的是打开每个单独的链接并抓取链接页面的内容。我遇到了一些随机的HTTP500错误，我试图通过简单的尝试跳过这些错误-除了跳过那些返回500个错误的页面。解析函数的第一部分使用parse_art函数遍历归档页面中的href，以获取要抓取的

浏览 18提问于2019-07-08得票数 1

回答已采纳

1回答

scrapy在尝试加载nepalstock.com时给出500个内部服务器错误

python、scrapy

当我试图将url http://nepalstock.com/todaysprice加载到scrapy shell中时，它会返回500个内部服务器错误。为什么这个网站会抛出这样的错误呢？我也尝试过用和不使用http来执行它们。scrapy shell 'http://nepalstock.com' 2019-04-07 12:09:41 [scrapy</

浏览 1提问于2019-04-07得票数 1

回答已采纳

1回答

使用scrapy抓取多个页面

python、web-scraping、scrapy

我试图使用刮除多个网页。这些页面的链接如下：在下一页中，最后的数字减少了1。下面给出了我的代码：import requests URL = "http://www.example.com

浏览 2提问于2015-01-05得票数 1

回答已采纳

1回答

请求的回错只返回HttpError，而不返回应该存在的其他错误。

python、scrapy、web-crawler、twisted

每个人~我都学会使用scrapy.Request()，errback的参数。我遵循编写我的代码，我发现只有HttpError。response>HttpError on http://www.httpbin.org/status/500<<<< <twisted.python.failure.Failur

浏览 14提问于2018-01-23得票数 0

2回答

使命令提示符等待所有进程完成执行

batch-file、process、wait

我正在通过java代码运行一个批处理文件。我的批处理文件由几个命令组成。我希望该进程仅在所有进程执行后才终止。我的java代码是cd\cd tut

浏览 6提问于2015-03-27得票数 0

回答已采纳

1回答

网站禁用爬虫后抓取一些链接

session、scrapy、web-crawler

我对scrapy有点问题。当我使用scrapy spider访问网站时。20-30分钟后，网站阻止我的爬虫。Scrapy总是返回500个代码。(DELAY_TIME = 10s)当scrapy运行时，我如何改变它的会话？或者解决这个问题？

浏览 0提问于2013-04-10得票数 0

回答已采纳

2回答

如何使用http请求启动我的刮伤蜘蛛？

python、django、scrapy

我是Python中较新的一个，我只是用scrapy编写了一些蜘蛛。现在，我想使用http请求激活我的蜘蛛，如：启动uwsgi: uwsgi -x django_socket.xml在django应用程序的views

浏览 0提问于2016-01-28得票数 2

回答已采纳

4回答

从urls列表中下载<very large> number of pages的最佳方式是什么？

python、multithreading、multiprocessing、scrapy、web-crawler

我有一个>100,000的urls (不同的域名)在一个列表中，我想下载并保存在数据库中，以便进一步处理和修补。另外，你也可以自由地提出你脑海中出现的其他很棒的方法。

浏览 2提问于2013-06-06得票数 5

回答已采纳

2回答

Scrapy在启动后立即完成

scrapy

我不知道为什么，但我的抓痕大多数时候是在它开始后立即停止爬行。2019-11-08 08:15:41 [scrapy.extensions.logstats57.0.2987.133 Safari/537.36 2019-11-08 08:15:41 [rotating_proxies.expire] INFO: Gettin

浏览 2提问于2019-11-08得票数 2

1回答

如果URL在响应代码中得到307，如何使它重试？

python-3.x、scrapy

我正在尝试使用代理来刮。但是对于大多数的URL，我被重定向到一个captcha验证页面。例如,但是我被重定向到RETRY_TIMES=5 &#

浏览 0提问于2018-05-17得票数 0

回答已采纳

1回答

从一个网站抓取多个网页

python、scrapy、web-crawler

from scrapy.spider import BaseSpider start_urls = [

浏览 2提问于2012-04-15得票数 0

1回答

如何在Scrapyd中设置max_proc_per_cpu

python、scrapy、scrapyd

我有以下两个具有以下配置的Scrapy项目[settings][deploy]dbs_dir = dbsmax_proc_per_cpu = 10debug = off runner我使用以下命

浏览 6提问于2017-12-09得票数 1

1回答

在scrapy* python中通过javascript实现下一页吗？*

javascript、python、scrapy、next、scrapinghub

从这个url中可以看到页面末尾的下一个，所以如果您观察到它们的html是通过href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')编写的，其中包含href标记作为#，我只是尝试收集那个href标记，即使它们是#。 yield Request(urljoin('xxx',nav_page),self.parse,dont_fi

浏览 5提问于2014-11-20得票数 2

回答已采纳

2回答

抓取Python循环到下一个未擦伤的链接

python、scrapy、scrapy-spider

我试图让我的蜘蛛浏览一个列表，刮掉所有的url--它可以在它们后面找到，抓取一些数据，然后返回到下一个未刮掉的链接上--如果我运行这个蜘蛛--我可以看到它返回到起始页面，但是尝试再次抓取相同的页面，然后退出对python来说非常新的任何代码建议。，但我希望它继续使用下一个未刮掉的链接2016-07-18 12:11:20 [scrapy] DE

浏览 3提问于2016-07-18得票数 0

回答已采纳

1回答

引发scrapy.exceptions.UsageError异常时返回非零退出代码

python、exception、scrapy、exit-code

import Spiderimport scrapy.exceptions as ScrapyExceptionsMySpider(Spider): allowed_domains = ['www.webtoscrape.com'] start_urls = ['httpraise ScrapyExceptions.Us

浏览 4提问于2022-02-10得票数 1

回答已采纳

1回答

如何在javascript文件中执行scrapy* python？*

python、node.js、scrapy

我有一个用命令scrapy crawl mynamefile启动的python脚本。我想从我的node js应用程序的js文件中运行python cli命令scrapy crawl，然后在控制台中显示它。问题是我不知道如何在节点中导入scrapy python库。谢谢你的帮忙!

浏览 24提问于2019-03-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用scrapy捕获错误，以便在遇到用户超时错误时可以执行某些操作？

ScrapySlash“掩码”404

Scrapy重试中间件在非标准http状态代码中失败。

如何让scrapy使用url遍历归档文件？

scrapy在尝试加载nepalstock.com时给出500个内部服务器错误

使用scrapy抓取多个页面

请求的回错只返回HttpError，而不返回应该存在的其他错误。

使命令提示符等待所有进程完成执行

网站禁用爬虫后抓取一些链接

如何使用http请求启动我的刮伤蜘蛛？

从urls列表中下载<very large> number of pages的最佳方式是什么？

Scrapy在启动后立即完成

如果URL在响应代码中得到307，如何使它重试？

从一个网站抓取多个网页

如何在Scrapyd中设置max_proc_per_cpu

在scrapy* python中通过javascript实现下一页吗？*

抓取Python循环到下一个未擦伤的链接

引发scrapy.exceptions.UsageError异常时返回非零退出代码

如何在javascript文件中执行scrapy* python？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐