如何阻止Scrapy CrawlSpider访问超过要求的URL？

Scrapy是一款强大的Python开源网络爬虫框架，CrawlSpider是其提供的一个用于基于规则爬取的Spider类。如果想要阻止Scrapy CrawlSpider访问超过要求的URL，可以通过以下方法进行实现：

在Spider的代码中设置rules属性：可以在Spider类中定义rules属性，来指定CrawlSpider对哪些URL进行爬取。通过在rules属性中配置正则表达式，可以限制CrawlSpider只对符合特定规则的URL进行爬取，从而阻止对其他URL的访问。
在爬取过程中进行URL过滤：通过重写parse方法，在解析网页内容之前，对即将爬取的URL进行判断和过滤。可以通过在parse方法中使用条件判断，根据URL的某些特征进行过滤，将不符合要求的URL直接丢弃，从而阻止其被访问。
使用Scrapy的中间件进行URL过滤：Scrapy提供了丰富的中间件，可以在请求发送之前或响应返回之后对请求进行处理。可以编写一个中间件，在请求发送之前对URL进行过滤，将不符合要求的URL从请求中剔除掉。

以下是一个示例，展示如何使用正则表达式和中间件来实现对Scrapy CrawlSpider访问超过要求的URL的阻止：

在Spider的代码中设置rules属性：

from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider

class MySpider(CrawlSpider):
    name = 'myspider'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com']

    rules = (
        Rule(LinkExtractor(allow=r'/page/\d+'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        # 处理爬取到的数据
        pass

上述代码中的Rule定义了一个正则表达式allow=r'/page/\d+'，指定只有URL匹配该正则表达式的页面才会被爬取。

在爬取过程中进行URL过滤：

from scrapy.spiders import CrawlSpider

class MySpider(CrawlSpider):
    name = 'myspider'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com']

    def parse(self, response):
        if not response.url.endswith('/page/1'):
            return  # 不符合要求的URL直接返回，不进行爬取

        # 继续处理爬取到的数据
        pass

上述代码中，通过条件判断if not response.url.endswith('/page/1')，将不符合要求的URL直接返回，从而阻止其被爬取。

使用Scrapy的中间件进行URL过滤：

首先，需要创建一个自定义的中间件URLFilterMiddleware，实现对URL的过滤逻辑：

from scrapy import signals
from scrapy.exceptions import IgnoreRequest
import re

class URLFilterMiddleware:
    def __init__(self, allowed_url_patterns):
        self.allowed_url_patterns = allowed_url_patterns

    @classmethod
    def from_crawler(cls, crawler):
        allowed_url_patterns = getattr(crawler.spider, 'allowed_url_patterns', [])
        return cls(allowed_url_patterns)

    def process_request(self, request, spider):
        url = request.url
        for pattern in self.allowed_url_patterns:
            if re.match(pattern, url):
                return None  # URL匹配，继续请求
        raise IgnoreRequest  # URL不匹配，忽略请求

然后，在Scrapy的配置文件settings.py中启用该中间件：

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.URLFilterMiddleware': 543,
}

最后，在Spider的代码中指定需要过滤的URL规则，并将其传递给中间件：

from scrapy.spiders import CrawlSpider

class MySpider(CrawlSpider):
    name = 'myspider'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com']
    allowed_url_patterns = [
        r'^http://www\.example\.com/page/\d+$',  # 允许匹配的URL规则
    ]

    def parse(self, response):
        # 处理爬取到的数据
        pass

上述代码中的allowed_url_patterns定义了一个正则表达式r'^http://www\.example\.com/page/\d+$'，指定只有URL匹配该正则表达式的页面才会被爬取。

希望以上内容能够满足你的要求，如果还有其他问题，请随时提问。

如何阻止Scrapy CrawlSpider访问超过要求的URL？

、

然而，它遵循许多链接的方式，即使我已经尝试了几件事来防止它这样做。据我所知，我可以限制scrapy的Crawlspider使用LinkExtractor的规则来跟踪链接。(很抱歉代码很长，但我认为这样你可以只运行文件，而不需要重新构建一半的爬虫，如果它应该是短的，请随意) # -*- coding: utf-8 -*-from scrap

浏览 28提问于2019-10-08得票数 1

1回答

爬行蜘蛛:蜘蛛错误处理引发NotImpmentedError

、

当我运行我的蜘蛛时，我会得到一个蜘蛛错误处理页面和一个蜘蛛豁免，但是如果我使用scrapy fetch，就会输出html响应，所以不是这个站点不可用。输出与我的项、蜘蛛和设置值一起包括在下面。()files = scrapy.Field()mycrawler.py import scrapyfrom librarycrawler.items import Librar

浏览 2提问于2016-06-03得票数 1

回答已采纳

1回答

scrapy python CrawlSpider不爬行

、、

import scrapy from scrapy.linkextractors importLinkExtractor name = 'genericSpider' start_urls = [url

浏览 11提问于2019-04-24得票数 0

1回答

CrawlSpider / Scrapy - CLOSESPIDER设置不起作用

、、、

我确实从一个单独的python脚本调用了带有CrawlSpider comand的os.system：...cmd = "scrapy crawl FullPageCrawler -t jsonlines -o "{0}" -a URL={1} -s DOWNLOAD_MAXSIZE=0 -s CLOSESPIDER_TIMEOUTCLOSESPIDER_TIMEOUT：爬虫应该工作的最长时间。现在，我面临一个已经爬行了4000多页(

浏览 0提问于2020-03-13得票数 0

回答已采纳

2回答

如何修复Scrapy在深度爬行中不起作用

、、、、

我目前正在尝试使用scrapy创建一个小型的web抓取原型。我目前的问题与链接提取和跟踪相关。我试图让scrapy浏览页面并找到指向页面的链接(目前不是图像和其他内容)，但我不知道如何正确设置参数。这是我正在使用的蜘蛛： session_id = -1 fo

浏览 2提问于2017-03-01得票数 1

2回答

scrapy中的Selenium不起作用

、、、、

我有一个scrapy Crawlspider，它可以很好地解析链接并返回html内容。然而，对于javascript页面，我使用Selenium来访问“隐藏”内容。问题是，虽然Selenium可以在简陋的解析之外工作，但它不能在parse_items函数内部工作from <e

浏览 3提问于2016-06-16得票数 0

3回答

Scrapy，仅遵循内部URLS，但提取找到的所有链接

、、、、

我想从一个给定的网站使用Scrapy获得所有外部链接。使用下面的代码，爬虫也会抓取外部链接：from scrapy.contrib.linkextractors'] = response.url我遗漏了什么？难道"allowed_domains“不能阻止外部链接被抓取吗？如果我将LinkExtractor设置为

浏览 0提问于2015-01-15得票数 16

回答已采纳

2回答

编写规则以从div获取字符串以在链接中使用

、、

我正试图在亚马逊上构建一条关于“与此项目相关的赞助产品”的规则，但是，每个产品的ASIN都嵌入到xpath //ol/li/div/@data-asin中，我希望从其中生成以下链接格式f"https://www.amazon.com/dp/{ASIN} (对于与此项目相关的赞助产品中的每一项) scrapy shell https://www.amazon.com&#x

浏览 0提问于2019-07-25得票数 0

回答已采纳

2回答

Scrapy不是提取数据，css选择器是正确的。

、

这是我的第一个刮刀，我有点麻烦。首先，我创建了我的css选择器，它们在使用scrapy时工作。当我运行我的蜘蛛时，它只返回以下内容2017import CrawlSpider, Rulefrom

浏览 3提问于2017-10-26得票数 0

回答已采纳

1回答

如何阻止我的爬虫记录副本？

、、

我想知道如何停止多次记录相同的url？到目前为止，这是我的代码：from scrapy.linkextractors.lxmlhtmlimport LxmlLinkExtractor url=Field()

浏览 3提问于2016-01-23得票数 0

回答已采纳

1回答

对不需要的URL进行快速解析

、

我在和Scrapy刮apartments.com我得到了一些不想要的结果。具体地说，我从附近的城市和西班牙语版本的apartments.com获得了结果。在每个公寓列表的底部，都有一个“附近的公寓”功能，这可能是Scrapy在波士顿以外的地方获得搜索结果的原因。我试图用我的拒绝规则阻止/es/ listings，但它似乎不起作用。import scrapy fr

浏览 0提问于2021-03-08得票数 1

1回答

scrapy LinkExtractor会检查每个yield(ed)请求中的链接吗？

、

Scrapy具有LinkExtractor类，该类跟踪链接并返回回调 Linkextractor是否检查来自每个yield(ed) Request的响应中的链接？是否包含被其他规则yield(ed)的页面中的链接？

浏览 1提问于2015-08-13得票数 0

2回答

与Scrapy有关的问题:爬行0页(0页/分钟)

、

我正在尝试学习如何使用python进行web抓取。我正在尝试使用Scrapy从晨星网站收集一些数据。本质上，我希望程序用一行晨星url读取我的csv文件。然后，我需要程序来解析晨星上的“其他类信息”表。我的问题是我一直得到:爬行0页(0页/分钟)，刮0项(0项/分钟)。任何帮助都将不胜感激。morningSpider.pyfrom scrapy.spiders import Spider, Rule f

浏览 4提问于2015-11-30得票数 0

1回答

Scrapy不将数据写入文件

、、、

他在Scrapy中创建了一个蜘蛛: items.py： # Defineimport CrawlSpider, Rulefrom scrapy.contrib.loader.processorimport TakeFirst from <e

浏览 0提问于2013-05-25得票数 3

回答已采纳

1回答

如何使用Scrapy进行分页并访问每个页面上的所有链接

、、

我有下面的蜘蛛，我尝试结合分页和规则访问每个页面上的链接。import scrapyfrom scrapy.spiders import CrawlSpider,yield scrapy.Request(response.urljoin(next_page_url))从第1页https://ausschreibun

浏览 3提问于2022-03-04得票数 0

回答已采纳

2回答

Python:列出没有索引的网站的所有URL

、、

我可以单独访问以下每个URL：http://www.example.com/{.*}.html 但是，对主页面http://www.example.com的访问受到某种限制，我被重定向到一个错误页面显示有没有一种方法可以列出托管在该域下的HTML页面的所有URL？

浏览 4提问于2016-06-15得票数 2

回答已采纳

1回答

抓取图片的url

、、、

如何使用python.please帮助me.this中的scrapy从网站获取图像url是我的代码#fromscrapy.linkextractors.lxmlhtml import LxmlLinkExtractor from scrapy.contrib.linkextractors import LinkExtractorfrom <em

浏览 1提问于2016-03-09得票数 3

1回答

Scrapy:如何在100个请求后停止CrawlSpider

我想限制CrawlSpider在网站上访问的页面数量。如何在100个请求后停止Scrapy CrawlSpider？

浏览 1提问于2020-07-11得票数 0

1回答

链接提取器无法获取超出特定路径的路径

、

我需要一点关于Scrapy的帮助和你的指导。我的Start_Url是:：已经粘贴了下面的代码，它能够获得链接/路径，直到下面的url。但不能超越这一点。我需要转到每个产品的页面，在下面的路径下列出。在"productsinfamily“页面中列出了特定的产品(可能在一个java脚本中)。我的爬虫无法访问这些单独的产品页面。下面是爬虫蜘蛛的代码- import <

浏览 5提问于2018-01-27得票数 0

1回答

如何使用Scrapy和Selenium从链接列表中抓取项目

、、、、

我有一个链接列表，搜索结果，我想检查和爬行这些链接中的每一个。任何帮助都是非常感谢的。代码“天基”： from scrapy import Selector from scrapy import log class RunnerSp

浏览 6提问于2015-07-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何阻止Scrapy CrawlSpider访问超过要求的URL？

相关·内容

如何阻止Scrapy CrawlSpider访问超过要求的URL？

爬行蜘蛛:蜘蛛错误处理引发NotImpmentedError

scrapy python CrawlSpider不爬行

CrawlSpider / Scrapy - CLOSESPIDER设置不起作用

如何修复Scrapy在深度爬行中不起作用

scrapy中的Selenium不起作用

Scrapy，仅遵循内部URLS，但提取找到的所有链接

编写规则以从div获取字符串以在链接中使用

Scrapy不是提取数据，css选择器是正确的。

如何阻止我的爬虫记录副本？

对不需要的URL进行快速解析

scrapy LinkExtractor会检查每个yield(ed)请求中的链接吗？

与Scrapy有关的问题:爬行0页(0页/分钟)

Scrapy不将数据写入文件

如何使用Scrapy进行分页并访问每个页面上的所有链接

Python:列出没有索引的网站的所有URL

抓取图片的url

Scrapy:如何在100个请求后停止CrawlSpider

链接提取器无法获取超出特定路径的路径

如何使用Scrapy和Selenium从链接列表中抓取项目

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐