Scrapy未执行CrawlSpider的所有规则

Scrapy是一个用于网络爬虫的Python框架，它提供了创建爬虫的便捷方式。CrawlSpider是Scrapy中的一个特殊类型，它基于规则（Rules）来提取链接并自动进行爬取。如果你发现CrawlSpider没有执行所有的规则，可能是以下几个原因：

基础概念

CrawlSpider通过定义rules属性来指定爬取规则，每个规则包含一个或多个LinkExtractor对象以及一个回调函数（callback），用于处理提取到的链接。

可能的原因及解决方法

规则定义不正确：
- 确保你的规则定义在CrawlSpider子类的rules属性中。
- 检查LinkExtractor对象是否正确配置，比如allow、deny、allow_domains等参数。
- 检查LinkExtractor对象是否正确配置，比如allow、deny、allow_domains等参数。

回调函数未定义或错误：
- 确保你在规则中指定的回调函数（如parse_item）已经在爬虫类中定义。
- 检查回调函数的命名是否有误。
请求被过滤：
- Scrapy有一个内置的请求过滤器，可能会阻止某些请求。检查日志文件，看是否有请求被过滤掉的记录。
- 可以通过设置DOWNLOAD_MIDDLEWARES来禁用或调整过滤行为。
爬虫启动问题：
- 确保你的爬虫已经正确启动，检查命令行输出是否有错误信息。
- 使用scrapy crawl mycrawlspider命令来启动爬虫。
动态内容加载：
- 如果页面内容是通过JavaScript动态加载的，Scrapy默认情况下不会执行JavaScript。可以考虑使用Scrapy-Splash或Selenium等工具来处理动态内容。

应用场景

CrawlSpider适用于需要从一个页面开始，根据页面中的链接自动爬取多个相关页面的场景，比如网站目录结构爬取、新闻网站的文章列表和内容爬取等。

参考链接

通过以上步骤，你应该能够诊断并解决CrawlSpider未执行所有规则的问题。如果问题依然存在，建议查看Scrapy的日志输出，通常会有详细的错误信息帮助定位问题。

Scrapy未执行CrawlSpider的所有规则

、

我有下面的刮板： from scrapy.crawler import CrawlerProcessfromscrapy.spiders import CrawlSpider, Rule name = "upcoming为了解决这个问题，我把start_urls改成了一个“锦标赛”页面的网址，这个网页是由

浏览 22提问于2021-11-19得票数 0

回答已采纳

1回答

Scrapy -未调用Parse_item

、

我有两个主要问题from scrapy.spider import BaseSpiderfrom scrapy

浏览 0提问于2012-07-09得票数 0

回答已采纳

1回答

scrapy LinkExtractor会检查每个yield(ed)请求中的链接吗？

、

Scrapy具有LinkExtractor类，该类跟踪链接并返回回调 Linkextractor是否检查来自每个yield(ed) Request的响应中的链接？是否包含被其他规则yield(ed)的页面中的链接？

浏览 1提问于2015-08-13得票数 0

1回答

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

、、

我试着开始我的刮刀不是从终端，而是从一个脚本。这在没有规则的情况下工作得很好，只需要生成正常的解析函数。一旦我使用规则并将“callback=”解析“”更改为“callback=”“parse_item”，任何事情都不再起作用。 from scrap

浏览 2提问于2019-11-18得票数 2

回答已采纳

1回答

Scrapy -排除不需要的URL(如评论)

、、

我正在使用Scrapy抓取网站以获取所有页面，但我当前的代码规则仍然允许我获取不需要的URL，例如除了帖子的主URL之外的评论链接"“。我可以在规则中添加什么来排除这些不需要的项目？下面是我当前的代码：from scrapy.contrib.lin

浏览 2提问于2013-05-27得票数 3

1回答

刮取规则不调用解析方法。

、、

我是新刮刮，并试图抓取一个域，跟踪所有内部链接，并用模式/示例/*抓取网址的标题。class BidItem(scrapy.Item): title = scrapy<

浏览 1提问于2018-11-22得票数 1

回答已采纳

1回答

scrapy是如何使用规则的？

、、

我刚开始使用Scrapy，我想了解这些规则是如何在CrawlSpider中使用的。如果我有一个在亚利桑那州图森市的纸杯蛋糕列表的黄页中爬行的规则，那么产生一个URL请求如何激活该规则--具体地说，它是如何激活restrict_xpath属性的？谢谢。

浏览 1提问于2014-08-17得票数 23

回答已采纳

2回答

scrapy版本0.22.1的多页抓取- "cannot import name CrawlSpider“错误是什么意思？

、、

我正在尝试编写一个爬虫来跨多个页面爬行，通过以下网址：我正在使用Scrapy版本0.22.1来做这件事。但是，我收到一条"cannot import name CrawlSpider“消息。我已经粘贴了下面蜘蛛的代码。有人能确定我哪里出错了吗？from scrapy.spider import CrawlSpider, Rule from scrapy.linkextractors.sgml import SgmlLinkExtractorfrom scrapy</em

浏览 0提问于2015-02-14得票数 1

1回答

爬行蜘蛛:蜘蛛错误处理引发NotImpmentedError

、

当我运行我的蜘蛛时，我会得到一个蜘蛛错误处理页面和一个蜘蛛豁免，但是如果我使用scrapy fetch，就会输出html响应，所以不是这个站点不可用。输出与我的项、蜘蛛和设置值一起包括在下面。Items.py# define the fields for your item here like:title = scrapy.Field() files = scr

浏览 2提问于2016-06-03得票数 1

回答已采纳

1回答

Scrapy CrawlSpider下一页不工作

、

我想要从每张卡片中抓取所有项目，第一个规则工作正常，但第二个规则意味着分页规则不起作用。这是我的代码： import scrapyfrom scrapy.spiders import CrawlSpider, Rule name =

浏览 12提问于2021-07-04得票数 1

回答已采纳

2回答

使用scrapy递归地爬行站点

、、

这是我到目前为止基于编写的代码(原始代码根本不工作，所以我尝试重新构建它)from scrapy.linkextractorsimport LinkExtractorfrom scrapy.selector importHtmlXPathSelector from nettuts.item

浏览 2提问于2015-12-28得票数 8

2回答

如何修复Scrapy在深度爬行中不起作用

、、、、

我目前正在尝试使用scrapy创建一个小型的web抓取原型。我目前的问题与链接提取和跟踪相关。我试图让scrapy浏览页面并找到指向页面的链接(目前不是图像和其他内容)，但我不知道如何正确设置参数。这是我正在使用的蜘蛛： session_id = -1 rules = [#not relevent code that gives an URL

浏览 2提问于2017-03-01得票数 1

1回答

尝试使用Scrapy解析JSON文件

、、、

我正在尝试解析类似于 1的文件，但是对于很多经度和纬度。爬虫循环遍历所有的网页，但没有输出任何东西。这是我的代码：import json from scrapy.http import Requestfrom scrapy.contrib.spiders import CrawlSpider, Rule class DmozSpider(CrawlSpide

浏览 8提问于2015-05-06得票数 0

回答已采纳

1回答

如何用Scrapy抓取一个有点奇怪的URL

、、

所以基本上我想使用Scrapy.org来建立一个论坛。我遇到的问题是，到每个线程的链接现在都是沿着这条线的，如果我尝试只输入它不起作用，它不会显示具有该ID的主题，所以我真的不知道如何才能生成线程名称和每个主题的id，以便能够抓取它。我真的很感谢在这个问题上的一些帮助，提前谢谢！

浏览 3提问于2013-08-29得票数 0

2回答

使用Scrapy下载所有JS文件？

、

我试图爬行一个网站，搜索所有的JS文件来下载它们。我刚接触Scrapy，我发现我可以使用CrawlSpider，但我似乎对LinkExtractors有一个问题，因为我的解析器没有执行。import scrapyfrom scrapy.linkextractors import LinkExtractorclass JSDownloader(<

浏览 25提问于2021-02-17得票数 0

回答已采纳

1回答

抓取爬行器输出

、、

我在Scrapy文档中的中有一个问题。它似乎爬得很好，但我很难将它输出到CSV文件(或任何真正的文件)。所以，我的问题是，我可以用这个：还是我必须创建一个import scrapyfrom scrapy.contrib.linkextrac

浏览 4提问于2014-10-23得票数 0

回答已采纳

1回答

如何获取所有新闻文章的urls？

、、、、

我可以很容易地从网站上抓取所有的新闻文章，其中文章的urls是这样组织的：http://samplenewsagency.com/en/news/12563。但对于像http://gcaptain.com这样以这种方式组织新闻的网站来说，我们能做些什么呢：http://gcaptain.com/chinese-aircraft-carrier-sails-hong-kong-maiden-visit如何查找所有</e

浏览 19提问于2017-07-09得票数 0

回答已采纳

1回答

CrawlSpider无法解析Scrapy中的多页

、

我创建的CrawlSpider没有正确地完成它的工作。它解析第一页，然后停止，而不继续到下一页。有些事我做错了但没能察觉到。希望外面的人给我一个提示，我该怎么做才能纠正它。()CrawlSpider名称"craigs.py“，包含： from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.linkextractors import LinkExtra

浏览 4提问于2017-04-04得票数 1

回答已采纳

1回答

如何使用Scrapy进行分页并访问每个页面上的所有链接

、、

我有下面的蜘蛛，我尝试结合分页和规则访问每个页面上的链接。import scrapyfrom scrapy.spiders import CrawlSpider,Rule name = "paging" start_urls = ['https://a

浏览 3提问于2022-03-04得票数 0

回答已采纳

1回答

刮除包含特定文本的URL

、

我想要构建的Scrapy程序有问题。代码如下。import scrapyfrom scrapy.linkextractors import LinkExtractorclass LinkscrawlItem(scrapy.Item): attr = scrapy.Field() cl

浏览 1提问于2022-02-22得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy未执行CrawlSpider的所有规则

基础概念

可能的原因及解决方法

应用场景

参考链接

相关·内容

Scrapy未执行CrawlSpider的所有规则

Scrapy -未调用Parse_item

scrapy LinkExtractor会检查每个yield(ed)请求中的链接吗？

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

Scrapy -排除不需要的URL(如评论)

刮取规则不调用解析方法。

scrapy是如何使用规则的？

scrapy版本0.22.1的多页抓取- "cannot import name CrawlSpider“错误是什么意思？

爬行蜘蛛:蜘蛛错误处理引发NotImpmentedError

Scrapy CrawlSpider下一页不工作

使用scrapy递归地爬行站点

如何修复Scrapy在深度爬行中不起作用

尝试使用Scrapy解析JSON文件

如何用Scrapy抓取一个有点奇怪的URL

使用Scrapy下载所有JS文件？

抓取爬行器输出

如何获取所有新闻文章的urls？

CrawlSpider无法解析Scrapy中的多页

如何使用Scrapy进行分页并访问每个页面上的所有链接

刮除包含特定文本的URL

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐