Scrapy crawler不稳定，有时工作有时不会

Scrapy是一个开源的Python框架，用于快速、高效地爬取和提取网页数据。它提供了强大的工具和功能，可以帮助开发人员构建稳定、可靠的网络爬虫。

然而，有时候Scrapy爬虫可能会出现不稳定的情况，有时工作有时不工作。这可能是由于以下几个原因导致的：

网络问题：Scrapy爬虫依赖于网络连接来获取网页数据。如果网络不稳定或者存在连接问题，爬虫可能无法正常工作。解决这个问题的方法是检查网络连接，并确保网络稳定。
网站反爬虫机制：有些网站会采取反爬虫措施，例如设置验证码、限制访问频率等。这些措施可能导致Scrapy爬虫无法正常工作。解决这个问题的方法是模拟人类行为，例如设置合理的访问频率、处理验证码等。
爬虫代码问题：Scrapy爬虫的稳定性也与代码质量有关。如果代码存在bug或者逻辑错误，可能导致爬虫不稳定。解决这个问题的方法是仔细检查代码，修复bug，并确保代码逻辑正确。
目标网站结构变化：如果目标网站的结构发生变化，例如HTML标签的改变、URL路径的变化等，可能导致Scrapy爬虫无法正确解析网页数据。解决这个问题的方法是及时更新爬虫代码，适应目标网站的变化。

总结起来，解决Scrapy爬虫不稳定的问题需要综合考虑网络连接、网站反爬虫机制、代码质量和目标网站结构变化等因素。通过检查网络连接、模拟人类行为、修复代码bug和及时更新爬虫代码，可以提高Scrapy爬虫的稳定性和可靠性。

腾讯云提供了一系列与云计算相关的产品，例如云服务器、云数据库、云存储等，可以帮助开发人员构建稳定、可靠的云计算环境。具体产品介绍和相关链接地址可以参考腾讯云官方网站：https://cloud.tencent.com/

Scrapy crawler不稳定，有时工作有时不会

、、、、

我的爬虫有时会工作，有时-crawls和抓取，但有时只是爬行，不会抓取任何东西，如果我没有改变任何代码:/我不明白。没有错误代码或任何东西。它看起来就像这样，当它不再重复的时候； 2017-02-05 23:52:00 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s/srs=9187220011&rh=n%3A283155>

浏览 21提问于2017-02-06得票数 1

回答已采纳

3回答

在与用户代码记录器不同的级别设置刮擦内置记录器。

、、

粗糙的内置伐木者：非常冗长。这个助手函数可以工作，<em

浏览 0提问于2018-04-25得票数 1

2回答

将Scrapyd与参数一起使用

、、、

我使用Scrapyd来使用scrapy作为webservice。http://myip:6800/schedule.json -d project=default -d spider=myspider -d domain=www.google.frfrom scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExt

浏览 2提问于2016-03-10得票数 2

回答已采纳

2回答

运行抓取爬虫的最简单方法，这样它就不会阻止脚本

、

给出了从代码中运行scrapy爬虫的许多方法：from scrapy.crawler import CrawlerProcess class MySpider(scrapy.Spider

浏览 3提问于2016-02-26得票数 3

回答已采纳

1回答

Scrapy脚本没有将设置传递给爬行器

、、

我试图通过一个脚本运行一个scrapy，但我认为get_project_settings()并没有指向我的settings.py，不管它们是在同一个目录中。由于某些原因，当我在VSCODE中选择“运行代码”而不是“在终端中运行”时，它有时会起作用。import sys from scrapy.crawler作为活动状态运行时，我的流

浏览 16提问于2021-08-03得票数 0

1回答

Scrapy:所有的刮板都失败了。包含语法错误的爬行器

、、、

有时我得到失败的所有刮刀时，在一个刮刀存在一些错误。例如:我有语法错误的刮板，这是遗漏的。/cmdline.py", line 141, in execute File "/home/Documents/project/.env/local/lib/python2.7/site-packages/scrapy

浏览 2提问于2018-01-12得票数 2

回答已采纳

1回答

scrapy.FormRequest.from_response VS.SplashFormRequest.from_response

、、、

我看过文档，，它说"SplashFormRequest.from_response也被支持，并按照刮除文档中的描述工作“，但是，简单地更改一行代码和更改splash中描述的设置不会带来任何结果。scrapy/crawler.py", line 72, in crawlFile "/usr/local/lib/python2.7/dist-packages

浏览 7提问于2017-01-25得票数 0

回答已采纳

2回答

从脚本中运行的刮伤无法工作

、

我试图运行一个使用scrapy crall single完美运行的爬行器，但是我无法在python脚本中运行它。 from twisted.internet import reactor from scrap

浏览 2提问于2013-09-13得票数 5

回答已采纳

3回答

无法运行'scrapy* crawl quotes‘*

、

无法使scrapy教程正常工作。我正在尝试学习scrapy，但我甚至无法运行教程。至少它不会抛出错误。C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\crawler.py", line 170, in crawl crawler\scrapy\crawler.py", line 198, in create_crawle

浏览 70提问于2019-01-24得票数 1

3回答

Scrapy pause/resume是如何工作的？

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。') as f:我使用以下命令运行它：from scrapy.crawlerimport Crawler from scrapy import log, si

浏览 0提问于2015-03-04得票数 8

2回答

有没有办法在scrapy中运行reactor.run()之后的代码？

我的问题是，如果我在reactor.run()之后添加验证代码，它就不能工作。这是我的密码：from scrapy.linkextractors import LinkExtractorfrom scrapy.crawler import CrawlerRunnerfrom twisted.intern

浏览 3提问于2021-01-07得票数 1

回答已采纳

2回答

鸡皮芹菜`update_state`

、、、

我有以下设置(Docker)： How are you using celery with scrapy? Scrapy在芹菜任务中运行，而不是从命令行运行。我也从未听说过scrapyd，这是刮擦

浏览 2提问于2017-06-12得票数 0

回答已采纳

1回答

从scrapy.middleware和scrapy.crawler删除信息日志

、、、

有没有人知道是否有办法为scrapy的模块设置不同的级别？我希望记录被刮掉的项和日志文件中发送的请求，但是来自scrapy.middleware、scrapy.crawler和scrapy.utils.log模块的日志总是相同的，并且不会给日志文件增加值。Scrapy的文档说，可以修改中特定记录器的级别，但是当在settings.py文件中设置这个级别时，它似乎无法工作。我的猜测是，scrapy.middleware和scra

浏览 1提问于2022-10-12得票数 1

回答已采纳

3回答

如何集成Flask和Scrapy？

、、

我使用scrapy来获取数据，我想使用flask web框架在网页中显示结果。但我不知道怎么调用flask应用中的蜘蛛。FlaskTemplate.py", line 102, in indexFile "/Library/Python/2.7/site-packages/scrapy/crawler.py", line 210, in __init__ install_shutdown_hand

浏览 0提问于2016-04-03得票数 24

1回答

无法使用bash - cron将目录更改为脚本。

、、、、

我有一个运行多个Python爬虫实例的脚本，Crawler是int /root/crawler/batchscript.py爬虫工作得很好。batchscript.py看起来像这样，(只发布相关代码)from scrapy.utils.project import但是，当我使用python

浏览 3提问于2016-11-17得票数 0

回答已采纳

1回答

如何强迫Ubuntu始终检测我的触摸屏为AlpsPS/2阿尔卑斯GlidePoint？

、、

在Ubuntu20.04上，我的联想IdeaPad Z360上的触屏有时被检测为AlpsPS/2 ALPS GlidePoint，有时被检测为PS/2通用鼠标，有时根本检测不到。当被检测为AlpsPS/2 ALPS GlidePoint时，它的工作原理是可以接受的。然而，当被检测为PS/2通用鼠标时，它的行为是不稳定的；如果没有检测到，它就不会响应。

浏览 0提问于2020-05-13得票数 0

2回答

从Python脚本中运行scrapy* - CSV导出程序不起作用*

、、、、

当我从命令行运行它时，我的刮取器工作得很好，但是当我试图在python脚本中运行它(使用使用Twisted的方法概述 )时，它不会输出它通常所做的两个CSV文件。spiders/ myfuncs.py刮板似乎在所有其他方面都正常工作下面是运行刮板(runspider.py)的脚本的代码： from scrap

浏览 3提问于2013-07-20得票数 6

回答已采纳

1回答

当根页面上没有链接分页时，Scrapy* Crawler无法工作。*

、、

我的刮痕爬虫不像预期的那样工作。这是我的规矩。scrapy crawl mg_bot_crawler -a table=mini_four 谢谢你的帮忙

浏览 1提问于2016-02-29得票数 0

回答已采纳

1回答

在一个水瓶应用程序的后台运行一个刮破的蜘蛛

、、、

from flask import Flask, render_templatefrom twisted.internet import reactorfrom scrapy.crawler import Crawlerfrom--如果我将上面的脚本保存为crawler.py，运行python cr

浏览 1提问于2014-03-20得票数 6

回答已采纳

1回答

SignalR 1.1.3与IIS6可靠地工作吗？

、、、

嗨，我们有一个web应用程序，它使用SignalR 1.1.3，并且在IIS7和更高版本中一直工作得很好。但是，由于被部署到IIS6服务器上，客户机和服务器之间的通信是不稳定的--有时消息将被成功地传输和接收，有时则不会。非常感谢

浏览 1提问于2013-12-02得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy crawler不稳定，有时工作有时不会

相关·内容

Scrapy crawler不稳定，有时工作有时不会

在与用户代码记录器不同的级别设置刮擦内置记录器。

将Scrapyd与参数一起使用

运行抓取爬虫的最简单方法，这样它就不会阻止脚本

Scrapy脚本没有将设置传递给爬行器

Scrapy:所有的刮板都失败了。包含语法错误的爬行器

scrapy.FormRequest.from_response VS.SplashFormRequest.from_response

从脚本中运行的刮伤无法工作

无法运行'scrapy* crawl quotes‘*

Scrapy pause/resume是如何工作的？

有没有办法在scrapy中运行reactor.run()之后的代码？

鸡皮芹菜`update_state`

从scrapy.middleware和scrapy.crawler删除信息日志

如何集成Flask和Scrapy？

无法使用bash - cron将目录更改为脚本。

如何强迫Ubuntu始终检测我的触摸屏为AlpsPS/2阿尔卑斯GlidePoint？

从Python脚本中运行scrapy* - CSV导出程序不起作用*

当根页面上没有链接分页时，Scrapy* Crawler无法工作。*

在一个水瓶应用程序的后台运行一个刮破的蜘蛛

SignalR 1.1.3与IIS6可靠地工作吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐