如何定义scrapy shell使用哪种蜘蛛？

在Scrapy框架中，scrapy shell是一个交互式的Python shell，用于快速测试和开发网络爬虫。当你使用scrapy shell时，可以指定要使用的蜘蛛类。默认情况下，它会使用start_urls属性中的第一个URL来初始化蜘蛛。

要指定使用哪种蜘蛛，你可以在命令行中使用-a参数，如下所示：

scrapy shell -a spider_name=<spider_class_name> <url>

其中，<spider_class_name>是你要使用的蜘蛛类的名称，<url>是要爬取的URL。

例如，如果你有一个名为MySpider的蜘蛛类，你可以使用以下命令来启动scrapy shell并使用MySpider蜘蛛：

scrapy shell -a spider_name=MySpider https://example.com

这将启动一个交互式的Python shell，其中包含已解析的网页内容，并使用MySpider蜘蛛的解析规则。

请注意，这个问答内容中没有提到云计算品牌商，因此我们的回答不会提及它们。

页面内容是否对你有帮助？

有帮助

没帮助

带有Scrapy子类init错误的动态蜘蛛生成

python、scrapy、web-crawler、bots、scrapy-spider

我正在尝试编写一个通用的“主”爬行器，在执行过程中与"start_urls“和"allowed_domains”一起使用。(最终，我将在数据库中获取这些信息，然后将其用于初始化和抓取每个DB条目的新蜘蛛。) 目前，我有两份文件： MySpider.py --建立我的蜘蛛大师班。 RunSpider.py --执行动态生成的蜘蛛初始化的概念的证明. 在编写这两个文件时，我引用了以下内容：这两个问题在StackOverflow上是我能找到的最好的帮助：；我考虑过，但我不认为这是我想要的. 以下是我所写的： MySpider.py -

浏览 2提问于2016-02-26得票数 5

回答已采纳

1回答

Selenium运行Firefox驱动程序，用于不使用

python、selenium、scrapy

我使用了的火狐驱动程序来加载和废弃项目中的一些蜘蛛中的网页。问题： Selenium在运行所有蜘蛛时运行Firefox实例，事件是我没有导入webdriver，也没有调用webdriver.Firefox()。预期行为： Selenium只在运行已在webdriver.Firefox()中使用的蜘蛛时才运行Firfox实例。为什么这很重要？在蜘蛛完成后，我将退出Firefox实例，但在不使用Selenium的蜘蛛中，这种情况并不明显。 --不使用Selenium的蜘蛛这个蜘蛛没有使用Selenium，我希望它不会运行Firefox。 class MySpider(scrapy.Spi

浏览 3提问于2016-12-10得票数 2

回答已采纳

3回答

运行多个Scrapy爬行器(简单方法) Python

python、scrapy、scrapyd

Scrapy非常酷，但是我发现文档非常简单，而且一些简单的问题很难回答。在综合了来自各种堆栈溢出的各种技术之后，我终于想出了一种运行多个scrapy爬行器的简单且不太技术性的方法。我认为这比尝试实现scrapyd等技术要少一些：这里有一个爬行器，它很好地完成了一项工作，就是在表单请求之后抓取一些数据： from scrapy.spider import BaseSpider from scrapy.selector import Selector from scrapy.http import Request from scrapy.http import FormRequest from

浏览 3提问于2014-01-25得票数 13

6回答

如何给抓取URL抓取抓取？

scrapy、web-crawler

我想用刮擦来爬行网页。有办法从终端本身传递起始URL吗？在中，可以给出蜘蛛的名称或URL，但是当我给出url时它会抛出一个错误： //我的蜘蛛的名字就是例子，但是我给出的是url而不是我的蜘蛛名(如果我给蜘蛛命名的话，效果会很好)。抓取性爬行example.com 错误：文件"/usr/local/lib/python2.7/dist-packages/Scrapy-0.14.1-py2.7.egg/scrapy/spidermanager.py"，第43行，在create (“蜘蛛未找到：%s”% spider_name) KeyError中：‘蜘蛛未找到: e

浏览 3提问于2012-03-13得票数 35

回答已采纳

1回答

如何将运行scrapy的默认设置设置为python脚本？

python、python-2.7、scrapy、scrapy-spider

我想将scrapy作为python脚本运行，但我不知道如何正确设置设置或如何提供它们。我不确定这是否是个设置问题，但我想是的。我的配置： Python2.7 x86 (作为虚拟环境) 刮伤1.2.1 Win 7 x64 我听取了的建议，让它运行起来。我对以下建议有一些意见：如果您在Scrapy项目中，可以使用一些额外的帮助程序在项目中导入这些组件。您可以自动导入将名称传递给CrawlerProcess的蜘蛛，并使用get_project_settings获取带有项目设置的设置实例。那么，“在项目内部”意味着什么？当然，我必须导入库并安装依赖项，但我希望避免使用

浏览 4提问于2016-11-18得票数 1

回答已采纳

2回答

刮伤Start_URL不正确

python、url、scrapy、scrapy-spider

所以我对刮刮很陌生，我要讨论一个(我相信) start URL不正确的问题。然后单击链接加载到营地描述中。然而，当我使用该启动URL时，它不会加载。这意味着scrapy打开并加载telnet，但永远不会连接。当我使用 (我从“检查(铬)”中的最上面一行得到)时，它会爬行，但看起来这是完全错误的站点。(我从检查页面的顶部获得了这个链接) 从哪里开始，URL是：有什么想法吗？提前谢谢！很抱歉所有的评论因此，我想我最大的问题是如何找到正确的url开始，因为我的所有其他脚本工作正常。而且，如果没有指定的规则，它就无法工作。 from scrapy.spiders import CrawlSp

浏览 0提问于2016-04-12得票数 0

3回答

Scrapy - NameError:未定义全局名称'base_search_url‘

python、python-2.7、scrapy、scrapy-spider、local-variables

我试图从一个Scrapy蜘蛛类中调用一个局部变量，但是我得到了NameError: global name 'base_search_url' is not defined。 class MySpider(scrapy.Spider): name = "mine" allowed_domains = ["www.example.com"] base_url = "https://www.example.com" start_date = "2011-01-01" tod

浏览 7提问于2016-09-14得票数 0

回答已采纳

1回答

scrapy的解析输出

python、scrapy、scrapy-splash

我正在用和后面的scrapy1.6测试一个splash实例。我的蜘蛛： import scrapy from scrapy_splash import SplashRequest from scrapy.utils.response import open_in_browser class MySpider(scrapy.Spider): start_urls = ["http://yahoo.com"] name = 'mytest' def start_requests(self): for url in

浏览 1提问于2019-06-20得票数 0

回答已采纳

1回答

将参数传递给python脚本中的刮取蜘蛛

python、python-2.7、web-scraping、scrapy、scrapy-spider

我可以在python脚本中使用wiki中的以下菜谱运行爬行： from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider from scrapy.utils.project import get_project_settings spider = FollowAllSpider(domain='scrapinghub.com

浏览 2提问于2015-02-24得票数 8

回答已采纳

3回答

在for循环中运行多个蜘蛛

python、scrapy、twisted、scrapy-spider

我试图实例化多个蜘蛛。第一个很好，但是第二个给出了一个错误: ReactorNotRestartable。 feeds = { 'nasa': { 'name': 'nasa', 'url': 'https://www.nasa.gov/rss/dyn/breaking_news.rss', 'start_urls': ['https://www.nasa.gov/rss/dyn/breaking_news.rss']

浏览 3提问于2015-11-21得票数 4

回答已采纳

1回答

在Scrapy规则的urls列表上使用参数进行爬行迭代

python、python-3.x、web-scraping、scrapy、scrapy-spider

我是Scrapy和Python的新手。我想做以下几点：访问一个url，并获取包含"shop/products"的所有链接，作为url的一部分。链接看起来像："“ 去掉start_urls的网址，得到总产品的数量，总。关于代码总计= num_items_per_category. 最后，将"?sort=Top&size=12&start=PARAM"添加到url。在每次迭代时，PARAM必须增加12，以防PARAM <=总数增加。最后的网址是"“ 从生成的start_urls中获取另一个url，然后再次启动步

浏览 3提问于2016-12-29得票数 0

回答已采纳

1回答

按IP地址抓取本地网站

python、web-crawler、scrapy

我还在尝试Scrapy，并且我正试图在我的本地网络上爬行一个网站。该网站的IP地址为192.168.0.185。这是我的蜘蛛： from scrapy.spider import BaseSpider class 192.168.0.185_Spider(BaseSpider): name = "192.168.0.185" allowed_domains = ["192.168.0.185"] start_urls = ["http://192.168.0.185/"] def parse(

浏览 0提问于2012-02-11得票数 2

3回答

如何将数据从刮伤爬虫中保存到变量中？

python、scrapy

目前，我正在构建一个web应用程序，用于显示由一只刮伤蜘蛛收集的数据。用户发出请求，蜘蛛爬行一个网站，然后返回数据到应用程序，以便得到提示。我想直接从刮板中检索数据，而不依赖中间的.csv或.json文件。类似于： from scrapy.crawler import CrawlerProcess from scraper.spiders import MySpider url = 'www.example.com' spider = MySpider() crawler = CrawlerProcess() crawler.crawl(spider, start_urls=

浏览 2提问于2016-11-21得票数 12

回答已采纳

1回答

刮擦蜘蛛不遵循链接和错误

python、web-scraping、scrapy、scrapy-spider

我试图写我的第一个网络爬虫/数据提取器使用刮刮，并无法得到它的后续链接。我也收到了一个错误：错误:蜘蛛错误处理< GET > 我知道蜘蛛正在扫描页面一次，因为我能够从我正在处理的a标记和h1元素中提取信息。有谁知道我怎样才能让它跟随页面上的链接并消除错误呢？ import scrapy from scrapy.linkextractors import LinkExtractor from wikiCrawler.items import WikicrawlerItem from scrapy.spiders import Rule class Wikispyder

浏览 2提问于2017-03-29得票数 2

回答已采纳

2回答

从脚本中运行刮擦蜘蛛

python、scrapy

我想从python脚本中运行我的刮破的sprider。我可以用下面的代码调用我的蜘蛛， subprocess.check_output(['scrapy crawl mySpider']) 直到一切都好为止。但在此之前，我通过初始化start_urls来实例化蜘蛛的类，然后对scrapy爬行的调用就无法工作，因为它找不到变量start_urls。 from flask import Flask, jsonify, request import scrapy import subprocess class ClassSpider(scrapy.Spider): name

浏览 6提问于2020-06-07得票数 0

回答已采纳

1回答

如何在Scrapy中包含当前页面？

python、scrapy、web-crawler

我已经创建了一个蜘蛛，它在当前页面上找到next_page url，然后跟踪并销毁它，在那个页面上，蜘蛛再次搜索next_page url并销毁它等等。它工作得很好，唯一的问题是它跳过了在start_urls中提到的页面上的报废--它总是从下一页开始刮起。它应该从当前页面(如start_urls )开始刮擦，然后跟随下一页。我知道我错过了什么。请帮助我理解跟随蜘蛛有什么问题。 import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml im

浏览 1提问于2014-12-08得票数 1

回答已采纳

1回答

scrapy shell在添加第二个爬行器时不显示>>>

python-3.x、scrapy

刚开始做一个差劲的项目。我使用以下命令创建了一个新的scrapy项目： scrapy startproject <projectname> 在爬虫文件夹中，我正在创建我的scrapy类，它包含了抓取数据的所有逻辑。我正在使用Scrapy Shell进行测试。当我创建第一个爬虫时，scrapy shell运行得很好。但在创建第二个爬虫时，scrapy shell不起作用。使用以下命令调用scrapy shell： scrapy shell <url> 我看到了以下几点： [s] Useful shortcuts: [s] fetch(url[, redirect=

浏览 2提问于2020-04-08得票数 1

1回答

在Scrapy中处理错误页

python、web-crawler、scrapy

我在start_urls中有一个URL 当爬虫第一次加载页面时，首先显示一个403错误页，之后爬虫关闭。我需要做的是在那个页面上填写一个captcha，然后它会让我访问这个页面。我知道如何编写绕过captcha的代码，但是在我的蜘蛛类中应该把这些代码放在哪里呢？当它遇到同样的问题时，我需要将它添加到其他页面上。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector i

浏览 1提问于2014-01-02得票数 4

1回答

Python scrapy crawlspider x-forwarded-for标头

python、scrapy

我的简单的爬虫蜘蛛是低沉的。如何将X-Forwarded-For添加到此crawler？X-Forwarded-For应该适用于将被爬行的所有页面。 from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.http.request import Request class MySpider(CrawlSpider): name = 'spidy' allowed_domains = ['websit

浏览 11提问于2021-10-14得票数 0

1回答

一次运行多个蜘蛛- CrawlerProcess -文件结构

python、scrapy、file-structure

我试图使用CrawlerProcess同时运行多个Scrapy蜘蛛，但不确定文件结构。当通过scrapy crawl indeed和scrapy crawl monster (我的蜘蛛类的指定名称)单独运行时，这两个蜘蛛都正常工作。我目前的文件结构如下： - scrapy - tutorial - spiders - __init__.py - indeed_spider.py - monster_spider.py - __init__.py - crawler.py - functions.py - item

浏览 5提问于2020-04-28得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何定义scrapy shell使用哪种蜘蛛？

相关·内容

带有Scrapy子类init错误的动态蜘蛛生成

Selenium运行Firefox驱动程序，用于不使用

运行多个Scrapy爬行器(简单方法) Python

如何给抓取URL抓取抓取？

如何将运行scrapy的默认设置设置为python脚本？

刮伤Start_URL不正确

Scrapy - NameError:未定义全局名称'base_search_url‘

scrapy的解析输出

将参数传递给python脚本中的刮取蜘蛛

在for循环中运行多个蜘蛛

在Scrapy规则的urls列表上使用参数进行爬行迭代

按IP地址抓取本地网站

如何将数据从刮伤爬虫中保存到变量中？

刮擦蜘蛛不遵循链接和错误

从脚本中运行刮擦蜘蛛

如何在Scrapy中包含当前页面？

scrapy shell在添加第二个爬行器时不显示>>>

在Scrapy中处理错误页

Python scrapy crawlspider x-forwarded-for标头

一次运行多个蜘蛛- CrawlerProcess -文件结构

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐