开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Scrapy:限制下一页被抓取的数量。不幸的是，DEPTH_LIMIT自定义设置不起作用

Scrapy是一款基于Python的开源网络爬虫框架，用于抓取网页数据。在使用Scrapy进行爬取过程中，有时我们希望限制下一页被抓取的数量，但是发现自定义设置的DEPTH_LIMIT无法起作用。这可能是由于一些常见问题导致的，下面我会提供一些解决方案和可能的原因。

确认DEPTH_LIMIT的设置位置：在Scrapy的配置文件（一般为settings.py）中设置DEPTH_LIMIT参数，该参数用于限制爬取的深度，默认为0，表示不限制深度。
检查Spider的parse方法：确保你的Spider类中的parse方法正确处理了下一页的链接，并将其加入到请求队列中进行爬取。如果parse方法没有正确地处理下一页的链接，那么即使设置了DEPTH_LIMIT，也无法起作用。你可以使用response.follow方法或者response.xpath/selector来提取下一页的链接，并通过yield或者return返回一个新的请求。
检查其他爬虫中间件和扩展：有时候其他自定义的爬虫中间件或者扩展可能会影响DEPTH_LIMIT的设置。可以尝试暂时禁用其他中间件或者扩展，看是否能够解决问题。
检查日志输出：Scrapy会输出日志信息，可以检查日志是否有关于DEPTH_LIMIT的提示或者警告信息，以及其他可能的错误信息。通过阅读日志，可以更好地了解为什么DEPTH_LIMIT设置不起作用。

如果上述方法都无法解决问题，可能是由于一些特殊情况导致的。在这种情况下，你可以尝试通过自定义中间件或者扩展来实现对下一页数量的限制。你可以在请求发送前检查深度，并决定是否跳过该请求。

总结起来，确保正确设置DEPTH_LIMIT参数、正确处理下一页链接的请求以及排查其他中间件和扩展是否干扰了DEPTH_LIMIT的设置，这些是解决Scrapy中DEPTH_LIMIT自定义设置不起作用的常见方法。如果你需要更深入地了解Scrapy的使用和原理，可以参考腾讯云相关的文档和教程，例如腾讯云服务器less云函数SCF的Serverless Framework SCF 部署 Scrapy 爬虫指南（https://cloud.tencent.com/document/product/583/51873）。

希望以上的答案能够帮助你解决问题，如果有其他疑问，请随时提问。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

《Learning Scrapy》（中文版）第7章配置和管理

这么做很方便，因为当我们把项目部署到云主机时，可以连带设置文件一起打包，并且因为它是文件，可以用文字编辑器进行编辑。下一级是每个爬虫的设置。...我们做过这样的设置，例如-s CLOSESPIDER_PAGECOUNT=3，这可以限制爬虫的抓取范围。在这一级，我们可以设置API、密码等等。...、抓取一定数量的文件、发出一定数量请求、发生一定数量错误时，提前关闭爬虫。...清理缓存的话，只需删除缓存目录： $ rm -rf .scrapy 抓取方式 Scrapy允许你设置从哪一页开始爬。设置DEPTH_LIMIT，可以设置最大深度，0代表没有限制。...默认的Scrapy方式是顺着第一条新闻抓取到最深，然后再进行下一条。广度优先可以先抓取层级最高的新闻，再往深抓取，当设定DEPTH_LIMIT为3时，就可以让你快速查看最近的新闻。

7299 0

scrapy setting配置及说明

默认值：16 并发是指scrapy同时处理的request的数量，默认的全局并发限制为16，可增加这个值，增加多少取决于爬虫占CPU多少，设置前最好测试一下，一般占在80-90%为好 CONCURRENT_REQUESTS_PER_DOMAIN...0, } FEED_TEMPDIR 它是用来设置，其中履带临时文件可以存储自定义文件夹的目录。...默认值： [] MEMUSAGE_ENABLED 它定义如果存储器使用是当scrapy过程超过存储器限制被启用。...默认值：False MEMUSAGE_LIMIT_MB 如果定义了存储器的最大限制(in megabytes)被允许。...如果为0，则没有限制 # DEPTH_LIMIT = 3 # 整数值。用于根据深度调整request优先级。如果为0，则不根据深度进行优先级调整。

2.2K3 0

爬虫相关

抓取动态渲染的内容可以使用:selenium,puppeteer 增量爬虫一个网站，本来一共有10页，过段时间之后变成了100页。...假设，已经爬取了前10页，为了增量爬取，我们现在只想爬取第11-100页。因此，为了增量爬取，我们需要将前10页请求的指纹保存下来。以下命令是将内存中的set里指纹保存到本地硬盘的一种方式。...（因为Python在进行长时IO操作时会释放GIL）所以简单的说，scrapy是多线程的，不需要再设置了，由于目前版本python的特性，多线程地不是很完全，但实际测试scrapy效率还可以。...，例如之前分析的“下一页”的链接，这些东西会被传回Scheduler；另一种是需要保存的数据，它们则被送到Item Pipeline那里，那是对数据进行后期处理（详细分析、过滤、存储等）的地方。...II、该设置也影响DOWNLOAD_DELAY，如果该值不为零，那么DOWNLOAD_DELAY下载延迟是限制每个IP而不是每个域 #CONCURRENT_REQUESTS_PER_IP = 16 #4

1.2K2 0

Scrapy分布式、去重增量爬虫的开发与设计

在这个系统中，新的链接可以分为两类，一类是目录页链接，也就是我们通常看到的下一页的链接，一类是内容详情页链接，也就是我们需要解析网页提取字段的链接，指向的就是实际的房源信息页面。...将下载器返回的Response,爬虫根据spider定义的爬取规则识别是否有下一页链接，若有链接，存储进redis中，保存key为next_link，同时根据匹配规则是否匹配到多个内容详情页链接，若匹配到...2）爬虫的具体实现爬虫程序的包含四个部分，分别是对象定义程序，数据抓取程序，数据处理程序和下载设置程序，此处的组成是Slave端，Master少了对象定义程序以及数据处理程序，Master端主要是下载链接的爬取...一旦访问行为被认定为爬虫，网站将会采取一定的措施，限制你的访问，比如提示你，访问过于频繁让你输入验证码，更严重者，会封掉你的ip，禁止你访问该网站。...系统以58同城租房平台为抓取目标，运行十小时之后，持续抓取网页数量共计几万条房源数据。

1.8K1 0

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader) 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy...用户也可以从中提取出链接,让Scrapy继续抓取下一个页面项目管道(Pipeline) 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。...当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。...′]即子子孙孙中标签是div且class=‘c1’的标签查询标签中带有某个class=‘c1’并且自定义属性name=‘alex’的标签：//div[@class=’c1′][@name=’alex’...注：可以修改settings.py 中的配置文件，以此来指定“递归”的层数,如： DEPTH_LIMIT = 1 7.scrapy查询语法中的正则： ?

2K11 0

Scrapy爬虫框架_nodejs爬虫框架对比

# LOG_ENABLED=True # 默认: 'utf-8',logging使用的编码。 # LOG_ENCODING='utf-8' # 它是利用它的日志信息可以被格式化的字符串。...如果为0，则没有限制 # DEPTH_LIMIT = 3 # 整数值。用于根据深度调整request优先级。如果为0，则不根据深度进行优先级调整。...# DEPTH_PRIORITY=3 # 最大空闲时间防止分布式爬虫因为等待而关闭 # 这只有当上面设置的队列类是SpiderQueue或SpiderStack时才有效 # 并且当您的蜘蛛首次启动时，也可能会阻止同一时间启动...当进行通用爬取时，一般的做法是保存重定向的地址，并在之后的爬取进行解析。 # 这保证了每批爬取的request数目在一定的数量，否则重定向循环可能会导致爬虫在某个站点耗费过多资源。...# REDIRECT_ENABLED = False 三、响应常见属性：一个Response对象表示的HTTP响应，这通常由下载器提供给到爬虫进行处理常见属性： url：代表由当前地址层跳往下一层的地址路由

1.4K3 0

Python自动化开发学习-Scrapy

可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader)：用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy...用户也可以从中提取出链接,让Scrapy继续抓取下一个页面项目管道(Pipeline)：负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。...：一种是需要进一步抓取的链接，例如“下一页”的链接，这些东西会被传回 Scheduler ；另一种是需要保存的数据，它们则被送到 Item Pipeline 那里，那是对数据进行后期处理（详细分析、过滤...爬取深度爬取深度，允许抓取任何网站的最大深度。如果为零，则不施加限制。这个是可以在配置文件里设置的。默认的配置里没有写这条，并且默认值是0，就是爬取深度没有限制。所以就会永不停止的爬取下去。...返回Request，调度器就是生成一个个的Request，然后调度执行。如果这里返回了Request，就会停止这次的执行，把Request放回调度器，等待下一次被调度执行。

1.5K1 0

网络爬虫之scrapy框架详解

twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架，scrapy正是依赖于twisted，从而基于事件循环机制实现爬虫的并发。...(self,spider): """ 爬虫关闭时，被调用 :param spider: :return: """ self.f.close() 去重 scrapy内部实现的去重...从上一篇的例子我们可以看出，其实scrapy内部在循环爬去页码的时候，已经帮我们做了去重功能的，因为我们在首页可以看到1,2,3,4,5,6,7,8,9,10页的页码以及连接，当爬虫爬到第二页的时候...，这样就需要我们自定义去重了 自定义去重分两步 1、编写DupeFilter类 from scrapy.dupefilter import BaseDupeFilter from scrapy.utils.request...' 深度深度就是爬虫所要爬取的层级限制深度只需要配置一下即可 # 限制深度 DEPTH_LIMIT = 3 cookie 获取上一次请求之后获得的cookie from scrapy.http.cookies

6564 0

分分钟学会用python爬取心目中的女神——Scrapy

可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader) 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy...用户也可以从中提取出链接,让Scrapy继续抓取下一个页面项目管道(Pipeline) 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。...当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。...']即子子孙孙中标签是div且class=‘c1’的标签查询标签中带有某个class=‘c1’并且自定义属性name=‘alex’的标签：//div[@class='c1'][@name='alex'...注：可以修改settings.py 中的配置文件，以此来指定“递归”的层数，如： DEPTH_LIMIT = 1 6.scrapy查询语法中的正则： ?

1.2K3 0

学Scrapy框架没有她可不行哦（爬虫）

国庆70周年国庆70周年在Scrapy中，要抓取网站的链接配置、抓取逻辑、解析逻辑里其实都是在Spider中配置的。 Spider要做的事就是有两件：定义抓取网站的动作和分析爬取下来的网页。...返回结果两种形式，一种为字典或Item数据对象；另一种是解析到下一个链接。如果返回的是字典或Item对象，我们可以将结果存入文件，也可以使用Pipeline处理并保存。...spider的名字定义了Scrapy如何定位(并初始化)spider，所以其必须是唯一的。 #name是spider最重要的属性，而且是必须的。...Spider类的属性和方法： name：爬虫名称，必须唯一的，可以生成多个相同的Spider实例，数量没有限制。...实战案例请看下一页，爬取百度文库搜索信息岁月有你惜惜相处

7252 0

Scrapy入门到放弃06：Spider中间件

Scrapy-deltafetch插件是在Spider中间件实现的去重逻辑，开发过程中个人用的还是比较少一些的。...作用依旧是那张熟悉的架构图，不出意外，这张图是最后一次出现在Scrapy系列文章中了。...DepthMiddleware 用来限制爬取深度的最大深度或类似， DEPTH_LIMIT - 爬取所允许的最大深度，如果为0，则没有限制。DEPTH_STATS - 是否收集爬取状态。...这里我们先看看Scrapy给定的自定义模板是怎么样的。...写这种基础理论篇是最磨人性子的了，其实可能自己一看就懂，但是就是很难很好的讲出来。所幸的是，后面应该就快要到实操的环节了。期待下一次相遇。

5591 0

《Learning Scrapy》（中文版）第5章快速构建爬虫一个具有登录功能的爬虫使用JSON APIs和AJAX页面的爬虫在响应间传递参数一个加速30倍的项目爬虫可以抓取Excel文件的爬虫总结

如果用户名和密码是正确的，你会进入下一页。如果是错误的，会看到一个错误页。...如果你可以从索引页中提取相同的信息，就可以避免抓取每一个列表页，这样就可以节省大量的工作。提示：许多网站的索引页提供的项目数量是不同的。...例如，对于我们的例子，我们需要的所有信息都存在于索引页中，包括标题、描述、价格和图片。这意味着我们抓取单个索引页，提取30个条目和下一个索引页的链接。...通过抓取100个索引页，我们得到3000个项，但只有100个请求而不是3000个。在真实的Gumtree网站上，索引页的描述比列表页的完整描述要短。这是可行的，或者是更推荐的。...提示：许多情况下，您不得不在数据质量与请求数量间进行折衷。很多网站都限制请求数量（后面章节详解），所以减少请求可能解决另一个棘手的问题。

4K8 0

一、了解Scrapy

零、什么是 Scrapy Scrapy 是一个用于爬取网站并提取结构化数据的高效爬虫框架，它可以用于各种应用程序/项目，比如数据挖掘、信息处理和档案处理等。...，并查找下一页的链接，最后使用和回调函数相同的方法去请求下一页。...尽管这这样能够进行非常快的爬取网页，但是还可以通过一些设置来限制爬取网站的方式。例如可以执行以下操作：设置每个请求之间的下载延迟，限制每个域或每个IP的并发请求数量。...Scrapy 进程内运行的 Python 控制台来调试爬虫程序；其他可重复使用的东西，如可以从 Sitemaps 和 XML/CSV 源爬取内容，自动下载与被抓取的项目关联的图像（或任何其他媒体）的媒体管道...三、接下来接下来的步骤是安装 Scrapy，请按照本教程了解如何创建全面的刮刮项目并加入社区

8872 0

Python scrapy 安装与开发

Scrapy是采用Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取采集web站点信息并从页面中提取结构化的数据。...官网：https://scrapy.org Scrapy 插件：https://pypi.python.org/pypi/Scrapy Scratch，是抓取的意思，这个Python的爬虫框架叫Scrapy...可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader) 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy...用户也可以从中提取出链接,让Scrapy继续抓取下一个页面项目管道(Pipeline) 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。...注：可以修改settings.py 中的配置文件，以此来指定“递归”的层数，如： DEPTH_LIMIT = 1 7、Scrapy 设置代理爬取网页 Python Scrapy 设置代理有两种方式，使用时两种方式选择一种即可

1.3K6 0

《Learning Scrapy》（中文版）第6章 Scrapinghub部署

如果是做单次抓取，让爬虫在开发机上运行一段时间就行了。或者，我们往往需要周期性的进行抓取。我们可以用Amazon、RackSpace等服务商的云主机，但这需要一些设置、配置和维护。...将Scrapy Deploy页上的url复制到我们项目的scrapy.cfg中，替换原有的[depoly]部分。不必设置密码。我们用第4章中的properties爬虫作例子。...几秒钟之后，Running Jobs栏会出现新的一行，再过一会儿，Requests和Items的数量开始增加。提示：你或许不会限制抓取速度。...另一种访问文件的方法是通过Scrapinghub的Items API。我们要做的是查看任务页或文件页的URL。...后面的章节中，我们继续学习设置一个类似Scrapinghub的小型服务器。下一章先学习配置和管理。----

1.1K8 0

《Learning Scrapy》（中文版）第10章理解Scrapy的性能

这是说pipelines是瓶颈吗？不是，因为pipelines没有同时处理响应数量的限制。只要这个数字不持续增加，就没有问题。接下来会进一步讨论。...当你不再需要响应体的时候，可以立即清除它。这可能是在爬虫的后续清除响应体，但是这么做不会重置抓取器的计数器。你能做的是减少pipelines的处理时间，减少抓取器中的响应数量。...这是因为没有足够的URL进入。抓取过程产生URL的速度慢于处理的速度。这时，每个索引页会产生20个URL+下一个索引页。吞吐量不可能超过每秒20个请求，因为产生URL的速度没有这么快。...解决：如果每个索引页有至少两个下一个索引页的链接，呢么我们就可以加快产生URL的速度。如果可以找到能产生更多URL（例如50）的索引页面则会更好。...另一个简单但高效的方法是分享首页。这需要你使用至少两个首页URL，并且它们之间距离最大。例如，如果首页有100页，你可以选择1和51作为起始。爬虫这样就可以将抓取下一页的速度提高一倍。

1.2K2 0

Scrapy框架的使用之Spider的用法

在Scrapy中，要抓取网站的链接配置、抓取逻辑、解析逻辑里其实都是在Spider中配置的。在前一节实例中，我们发现抓取逻辑也是在Spider中完成的。...另一种是解析得到下一个（如下一页）链接，可以利用此链接构造Request并设置新的回调函数，返回Request等待后续调度。...它还有如下一些基础属性： name。爬虫名称，是定义Spider名字的字符串。Spider的名字定义了Scrapy如何定位并初始化Spider，它必须是唯一的。...不过我们可以生成多个相同的Spider实例，数量没有限制。name是Spider最重要的属性。如果Spider爬取单个网站，一个常见的做法是以该网站的域名名称来命名Spider。...它是一个字典，是专属于本Spider的配置，此设置会覆盖项目全局的设置。此设置必须在初始化前被更新，必须定义成类变量。 crawler。

6313 0

Scrapy1.4最新官方文档总结 1 介绍·安装安装

官方案例现在使用网站http://quotes.toscrape.com作为抓取源。这个网站是GoodReads.com（特别好的书评网站，Kindle用户肯定熟悉）和Scrapinghub合作的。...Scrapy官网推荐过Scrapy Cloud。 Crawlera是代理插件，《Learning Scrapy》书里用到过，那时还是免费的，现在是收费的了。...寻找下一页的链接，规划下一个请求。可以看出Scrapy的优点：请求是经过规划，然后异步执行的。所以，Scrapy不用等待请求完成，就可以发出另一个请求。如果某个请求受阻，其它请求仍然可以执行。...这样的话，Scrapy爬取的速度就可以很快。控制爬取速度，可以通过设置两个请求的间隔时间、设置域名或ip的并发请求数、或使用自动阻塞插件（AutoThrottle extension）。...扩展性强，可以使用signals和API（中间件、插件、管道）添加自定义功能多种用于处理session、cookies、HTTP认证、user-agent、robots.txt、抓取深度限制的中间件和插件

8228 0

爬虫大杀器 | Python学习之Scrapy-Redis实战京东图书

pop操作，即获取一个会去除一个) dmoz items：爬取的内容 (通过scrapy_redis.pipelines.RedisPipeline保存,屏蔽之后可以实现自定义对象存取位置,存放的获取到的...对象的指纹，指纹默认由请求方法，url和请求体组成) dumpfilter的数量减去request的数量是已经抓爬取过的数量关闭redispipeline之后,redis数据库中数据量变化： dmoz...，把dont_filter置为True，该url会被反复抓取（url地址对应的内容会更新的情况）一个全新的url地址被抓到的时候，构造request请求 url地址在start_urls中的时候，会入队...,我们可以爬取到分类下的书籍列表页,这个页面包含书籍的全部信息,同样是可以使用xpath解析出来的。...这里就比较简单,对比最后一页与其他页,发现最后一页是没有下一页链接的,根据以上分析可以成功构建相应代码： # 下一页地址构建 next_url = response.xpath("//

7553 0

爬虫 | Python学习之Scrapy-Redis实战京东图书

pop操作，即获取一个会去除一个) dmoz items：爬取的内容 (通过scrapy_redis.pipelines.RedisPipeline保存,屏蔽之后可以实现自定义对象存取位置,存放的获取到的...对象的指纹，指纹默认由请求方法，url和请求体组成) dumpfilter的数量减去request的数量是已经抓爬取过的数量关闭redispipeline之后,redis数据库中数据量变化： dmoz...，把dont_filter置为True，该url会被反复抓取（url地址对应的内容会更新的情况）一个全新的url地址被抓到的时候，构造request请求 url地址在start_urls中的时候，会入队...,我们可以爬取到分类下的书籍列表页,这个页面包含书籍的全部信息,同样是可以使用xpath解析出来的。...这里就比较简单,对比最后一页与其他页,发现最后一页是没有下一页链接的,根据以上分析可以成功构建相应代码： # 下一页地址构建 next_url = response.xpath("//

5953 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭