scrapy脚本在shell中运行良好，但在crawler上不起作用

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地抓取和提取网页数据。它提供了强大的功能和灵活的配置选项，使开发者能够轻松地构建和管理爬虫程序。

问题描述中提到，Scrapy脚本在shell中运行良好，但在crawler上不起作用。这可能是由于以下几个原因导致的：

环境配置问题：在crawler上运行Scrapy脚本时，可能存在环境配置不一致的问题。确保crawler上安装了正确版本的Python和Scrapy，并且所有依赖项都已正确安装。
网络访问限制：crawler可能存在网络访问限制，导致无法正常访问目标网站。可以尝试使用代理服务器或者调整网络设置来解决这个问题。
爬虫配置问题：在crawler上运行Scrapy脚本时，可能需要调整爬虫的配置。检查爬虫的配置文件，确保目标网站的URL、请求头、请求参数等信息正确配置。
日志和错误处理：在crawler上运行Scrapy脚本时，可能需要配置日志和错误处理机制，以便及时发现和解决问题。可以通过设置日志级别、保存错误日志文件等方式来进行调试和排查。

总结起来，解决Scrapy脚本在crawler上不起作用的问题，需要仔细检查环境配置、网络访问限制、爬虫配置以及日志和错误处理等方面的问题。根据具体情况进行调试和排查，以确保Scrapy脚本能够在crawler上正常运行。

腾讯云相关产品推荐：

云服务器（CVM）：提供弹性计算能力，可满足不同规模和需求的应用场景。详情请参考：腾讯云云服务器
云数据库MySQL版（CDB）：提供高可用、可扩展的MySQL数据库服务，适用于各种应用场景。详情请参考：腾讯云云数据库MySQL版
云存储（COS）：提供安全、稳定、低成本的对象存储服务，适用于海量数据存储和访问。详情请参考：腾讯云云存储
人工智能平台（AI Lab）：提供丰富的人工智能算法和模型，帮助开发者快速构建和部署AI应用。详情请参考：腾讯云人工智能平台
物联网套件（IoT Hub）：提供全面的物联网解决方案，包括设备接入、数据管理、消息通信等功能。详情请参考：腾讯云物联网套件

scrapy脚本在shell中运行良好，但在crawler上不起作用

、、、

嗨，我有一个脚本，当在shell中输入(直到for循环)时，它可以很好地显示每个标签。但当我把它放在scrapy中时，它完全疯了，什么也没有显示。脚本应该写入在json文件中生成的内容，但该文件只是声明为空或由空逗号填充。导入scrapy class SgbdSpider(scrapy.Spider): "http

浏览 21提问于2021-03-20得票数 0

1回答

使用Scrapy，获取"Error: ImportError: No模块名为testspiders.spiders.followall“

、、

我正在尝试从脚本中运行Scrapy，并一直遵循教程。我一直在寻找解决方案，但还没有找到合适的答案。实际上，我是通过node.js运行这个python脚本的，它有一个名为的模块，它只允许您使用以下简单代码运行python脚本：from scrapy import l

浏览 2提问于2014-10-22得票数 3

回答已采纳

1回答

在运行时环境(如cgi、wsgi )中调用scrapy

我想模拟是否有给我提供HtmlXPathSelector (hxs)对象的url的刮伤实用程序？

浏览 5提问于2013-06-24得票数 1

4回答

AttributeError：“module”对象没有属性“”update_settings“”scrapy 1.0.5“”

、、、

crawler在命令行中运行良好，并显示以下错误：2016_create_crawler(crawler_or_spidercls) File "/usr/local/lib/python2.7/dist-packages&#

浏览 3提问于2016-03-30得票数 5

1回答

粗糙的Xpath选择器在某些表达式上不起作用

、、

当我使用scrapy shell (或运行爬虫程序)时，一些表达式似乎不起作用：[s] Available Scrapy objects: [s] scrap

浏览 4提问于2017-02-26得票数 0

回答已采纳

2回答

从python脚本运行scrapy

、、、

我一直在尝试从python脚本文件运行scrapy，因为我需要获取数据并将其保存到我的数据库中。但是当我用scrapy命令运行它时该脚本运行良好，但当我尝试使用脚本运行它时，请使用以下链接 http://doc.scrapy.org/en/latest/to

浏览 1提问于2014-05-10得票数 1

3回答

Scrapy:如何访问自定义，CLI从蜘蛛类的init()方法传递设置？

、、、

文档解释了如何通过管道通过以下方式访问这些自定义设置：def from_crawler(cls, crawler): settings = crawler.settings

浏览 7提问于2019-10-07得票数 2

回答已采纳

1回答

我想在Spyder中使用Scrapy，而不是通过终端/shell使用它。我是一个windows用户，Scrapy版本1.8.0，pyhton 3.7.3，我正面临着BeautifulSoup的问题。例如，我试图从一个网站获取一个产品的价格，问题是它并不总是得到数据，但Scrapy在这里通过使用CSS选择器工作得很好。所以我想将Scrapy与Spyder或Vscode一起使用，因为我还有其他依赖于Scrapy输出的代码。

浏览 69提问于2019-12-14得票数 0

回答已采纳

1回答

忽略导出SCRAPY_SETTINGS_MODULE的刮擦外壳

、、、、

无论如何，我设置了上面的内容，并在没有指定任何蜘蛛的情况下，针对我想要的示例URL运行scrapy。启动时没有异常或警告，但不使用我提供的设置模块。我做错了什么？

浏览 3提问于2017-09-11得票数 1

回答已采纳

2回答

从不包括管道的脚本中运行scrapy

、、、、

我正在运行脚本中的擦伤，但它所做的只是激活蜘蛛。它不会通过我的物品管道。我读过，但它没有提到任何包括管道的内容。spiders/ my_spider.pyfrom twisted.internet import reactorfrom scrapy.settings import Settings from

浏览 4提问于2014-08-06得票数 12

回答已采纳

8回答

、、、

我已经在我的mac上安装了它，但在运行本教程时出现以下错误：scrapy shell http://quotes.toscrape.com/random 或者scrapy shell &qu

浏览 3提问于2018-02-19得票数 11

1回答

JavaScript在Chrome或Firefox上不起作用

、、、

我想用我下载的java脚本来实现“图像幻灯片”的效果。它们使用相同的js文件，但是js文件在我的站点的chrome上不起作用。有什么问题吗？

浏览 0提问于2012-09-08得票数 0

回答已采纳

2回答

从centos到Ubuntu的克隆乔布斯，日子不好过

、、、

&& scrapy crawl spiderrooy > /home/crawler2/logs/spiderrooy_log_$(date '+\%Y-\%m-\%d').txt 2>&1 在我的ubuntu/env/bin/activate && cd /home/crawler1/project_spiderrooy &&

浏览 0提问于2018-01-13得票数 0

回答已采纳

1回答

Scrapy -不能从父文件夹中的脚本调用scrapy项目

、、

我有一种奇怪的东西，我不能把我的头放在这里：我已经使用Scrapy设置了一个webscraper，当我从cli ($ python journal_scraper.py)运行以下文件时，它会执行刮取操作现在，我想将这个刮取称为我正在开发的应用程序中的许多步骤之一，因此从父文件夹到Scrapy项目，然后将journal_scraper.py导入到文件中，然后尝试运行checkForUpdates()函数/scripts/scraper.py', sh

浏览 2提问于2016-01-10得票数 0

1回答

如何将APscheduler与scrapy一起使用

、、、

从脚本()运行scrapy crawler的代码但它不起作用。from twisted.internet import reactorfrom scrapy import log,signalscrawler.signals.connect(reactor.stop, signal=signals.spider_closed) c

浏览 0提问于2015-04-21得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

scrapy脚本在shell中运行良好，但在crawler上不起作用

相关·内容

scrapy脚本在shell中运行良好，但在crawler上不起作用

使用Scrapy，获取"Error: ImportError: No模块名为testspiders.spiders.followall“

在运行时环境(如cgi、wsgi )中调用scrapy

AttributeError：“module”对象没有属性“”update_settings“”scrapy 1.0.5“”

粗糙的Xpath选择器在某些表达式上不起作用

从python脚本运行scrapy

Scrapy:如何访问自定义，CLI从蜘蛛类的init()方法传递设置？

如何在Spyder或VScode中使用Scrapy

忽略导出SCRAPY_SETTINGS_MODULE的刮擦外壳

从不包括管道的脚本中运行scrapy

如何从Python脚本中运行Scrapy

在本地运行Scrapy中的所有爬行器

在刮刮中运行多个蜘蛛

如何像一个简单的脚本那样以编程的方式运行一个刮破的蜘蛛？

AttributeError:在使用scrapy时，“模块”对象没有属性“数据库”

为什么我在scrapy* - python3.7无效语法中得到这个错误*

JavaScript在Chrome或Firefox上不起作用

从centos到Ubuntu的克隆乔布斯，日子不好过

Scrapy -不能从父文件夹中的脚本调用scrapy项目

如何将APscheduler与scrapy一起使用

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐