如何限制蜘蛛爬虫在scrapy中达到一定数量的下载后停止？

文章/答案/技术大牛

发布

1回答

python、scrapy

我需要去一个网站，有一个文件列表，并下载每个项目。问题是，每天的下载是有限的(认证系统)，所以我的爬行器需要在下载几个项目时停止，他将无法从那里下载任何文件。这就是我尝试过的: settings.py CLOSESPIDER_ITEMCOUNT = 10 CLOSESPIDER_PAGECOUNT = 50 它不起作用，因为scrapy与自然是异步的，并且不够聪明，不足以考虑丢弃的

浏览 69提问于2021-04-01得票数 0

2回答

在脚本中运行scrapy X小时？

scrapy、scrapy-spider

有没有办法将scrapy作为bash脚本的一部分运行，并且只运行一定的时间？也许可以在X小时后模拟Ctrl-C + Ctrl-C？

浏览 0提问于2016-11-25得票数 1

1回答

Scrapy中的限制请求

python、python-3.x、scrapy、twisted

我正在用Scrapy开发一个蜘蛛，它可以迭代通过一个键控的url。例如，它将使用url作为模板(例如https:\google.com{key})。我遇到了一个问题，我不能让它在正确的时间停止对这些urls的迭代。例如，如果我开始接收到足够多的失败请求，比如404，我想要终止，这样我就不会发送超过需要的请求。它将停止爬虫，但不会在一些请求完成之前停止。然后，我尝试在跟踪已执行/失败<em

浏览 10提问于2019-08-09得票数 0

回答已采纳

2回答

如何在多个爬虫在同一进程中运行时停止反应器

python、web-crawler、scrapy

我读过和的文章，并且让多个爬虫在同一个进程中运行。然而，我不知道如何设计一个信号系统，在所有蜘蛛完成后停止反应堆from twisted.internet import reactorfrom scrapy.settings import Settings from scrapy

浏览 2提问于2013-09-13得票数 7

2回答

对测试的刮擦限制请求

python、python-2.7、web-scraping、scrapy、scrapy-spider

我一直在搜索刮伤文档，寻找一种限制我的蜘蛛可以请求的数量的方法。在开发过程中，我不想坐在这里等待我的蜘蛛完成整个爬行，即使爬行非常专注，它们仍然需要很长一段时间。我希望有这样的能力，“在对站点的x请求之后，我将停止生成新的请求。” 我想知道，在我试图想出自己的解决方案之前，是否存在这样

浏览 2提问于2015-06-19得票数 4

回答已采纳

3回答

可以在scrapy中设置动态下载延迟吗？

scrapy、web-crawler、delay

我知道可以设置一个恒定的延迟DOWNLOAD_DELAY = 2我想要做的是将download_delay保持为0。一旦在html中发现了“请求太频繁”的msg。或者有没有其他更好的办法来处理这种情况？更新:我发现这是一个扩展调用，但它能定制一些

浏览 4提问于2014-12-03得票数 4

4回答

有没有办法确定理想的线程数？

java、multithreading、performance、metric

我正在做一个网络爬虫，并使用线程下载页面。第二件事是我感兴趣的。我正在使用线程同时下载多个页面，但随着我创建更多的线程，更多的处理器共享发生了。是否有一些度量/方式/类别的测试来确定理想的线程数量，或者在达到一定<

浏览 0提问于2011-05-20得票数 6

回答已采纳

1回答

是每只蜘蛛还是每台机器刮伤的CONCURRENT_REQUESTS？

scrapy、scrapy-spider

新手在这里设计他的建筑问题：我的目标，，我想要跟踪多个推特档案随着时间的推移。我想要构建的东西：是一个SpiderMother类，它与一些数据库(holding CrawlJobs)接口，生成和管理许多小型蜘蛛，每一个在twitter上以不规则的间隔爬行一个用户页面(作业将按照某种算法添加到数据库中它们是由SpiderMother作为子进程生成的，根据爬行的成功程度，数据库作业将被删除。这是个好建筑吗？我看到<em

浏览 0提问于2018-09-19得票数 1

回答已采纳

1回答

Scrapy能爬行任何类型的网站吗？

python、scrapy

Scrapy框架是否有效地爬行任何网站？我之所以问这个问题，是因为我在他们的教程中发现，他们通常构建的正则表达式依赖于网站的体系结构(链接的结构)来爬行。这是否意味着Scrapy不能是通用的，并且能够爬行任何网站，不管它的URL是以何种方式构建的？因为在我的例子中，我必须处理大量的网站:不可能为每个网站编写正则表达式。

浏览 4提问于2014-08-08得票数 0

回答已采纳

1回答

刮擦:为什么要用管道？

python、scrapy、web-crawler、splash-screen

我在Scrapy+Splash有一个工作的爬虫。它在许多页上发射一只蜘蛛。每个页面都包含一个链接列表。对于每个页面，蜘蛛会下载该页面，其中一些页面是从该页面链接的(而不是递归的)。所有的页面都保存在文件系统中。这个系统运行得完美无缺。目前，我正在重构它以添加一些DB交互。我不使用项，也不使用项管道。使用它们有什么好处？添加一些信息:我的爬虫的目的是下载</

浏览 2提问于2017-08-08得票数 1

回答已采纳

1回答

如何让抓取蜘蛛从起始网址下载图片？

python、scrapy、web-crawler

['https://image.jpg'] for url in self.start_urls: # print(response.url) yield item 我的爬行器现在可以从start_urls下载图像，但请求被发

浏览 22提问于2020-04-26得票数 0

1回答

通过Django视图运行Scrapy

python、django、web-scraping、scrapy、web-crawler

因此，我正在做以下项目：我正在使用Django开发一个网站，将作为一个网络爬虫的远程管理工作。更具体地说，我用Scrapy创建了一个蜘蛛，可以从另一个网站下载一些PDF文件。我的目标是找到一种通过POST (我猜)请求调用爬行器的方法，并让爬虫在我的Django视图中运行。下载的文件将存储到运行网站的服务器上，而不是存储到运行爬行器的任何人<e

浏览 0提问于2017-08-16得票数 2

1回答

关闭主要刮擦管道，但将图像下载保存到刮擦完成为止

python、exception、scrapy、pipeline

对于如何在抓取图像下载管道，或者停止爬行管道而不杀死其余的文件，有什么想法吗？我正在用scrapy的蜘蛛编写爬虫代码。我的目标是爬行页面，一旦满足条件(刮过的更新日期比参数更早)，关闭爬行过程。但是，我不希望在完成任务之前关闭图像下载管道。到目前为止所取得的成就如下：所有数据(图像除外)都被正确地存储，并且蜘蛛关闭

浏览 2提问于2020-11-27得票数 0

回答已采纳

3回答

记录在scrapy中运行爬行器所用的总时间

python、scrapy

我正在使用scrapy来销毁一个网站我已经写了一个爬行器，并从页面获取所有的项目并保存到csv文件中，现在我想保存scrapy获取的total execution time来运行蜘蛛文件，实际上在爬行器执行完成后，当我们在终端时，它将显示一些结果，如starttime, endtime等。因此，现在在我的程序中，我需要计算scrapy运行爬虫所用的总时间，并将总

浏览 3提问于2012-06-28得票数 6

回答已采纳

3回答

何时以及如何在一个Scrapy项目中使用多个蜘蛛

python、scrapy

我正在使用Scrapy，它太棒了！这么快就造了个爬虫。随着网站数量的增加，需要创建新的蜘蛛，但这些网站的位置是相同的类型，所有这些蜘蛛使用相同的项目，管道，解析过程。将所有公共设置放置在settings.py中，一个蜘蛛的特殊设置在[spider name]_settings.py中，例如： spider1<e

浏览 3提问于2014-08-01得票数 23

4回答

从urls列表中下载<very large> number of pages的最佳方式是什么？

python、multithreading、multiprocessing、scrapy、web-crawler

我有一个>100,000的urls (不同的域名)在一个列表中，我想下载并保存在数据库中，以便进一步处理和修补。另外，你也可以自由地提出你脑海中出现的其他很棒的方法。

浏览 2提问于2013-06-06得票数 5

回答已采纳

1回答

向from_crawler脚本添加scrapy.xlib.pydispatch方法

python-3.x、selenium、scrapy

如果你发现这个问题研究得很好，并且对你有用的话，一定要投赞成票。其他人也应该有同样的机会找到有用的职位。不久前，我在使用windows上用python编写的scrapy蜘蛛时，有了这个功能代码，现在它出现在使用scrapy爬行器时。ScrapyDeprecationWarning:不再推荐从scrapy.xlib.pydispatch导入，并且在将来的Scrapy版本中</

浏览 4提问于2019-10-08得票数 1

1回答

对一定数量的请求限制刮擦蜘蛛

python、scrapy

当达到一定的请求限制时，我希望我的刮破蜘蛛关闭。我试过了，但不是为我工作。它再次显示输入消息，并且在达到限制之前不会中断。我想要的是： # -*- coding: utf-8 -*- links_list=

浏览 3提问于2020-07-27得票数 0

回答已采纳

2回答

我如何安排抓取蜘蛛在一定的时间后爬行？

scrapy、scrapy-spider

我想安排我的蜘蛛在爬行完成后1小时内再次运行。在我的代码中，spider_closed方法是在爬行结束后调用的。现在，如何从这个方法再次运行爬行器。或者是否有任何可用的设置来调度抓取蜘蛛。这是我的基本爬虫代码。import scrapyfrom a2i.items import A

浏览 2提问于2016-06-19得票数 4

1回答

在使用py2neo时，Java内存不断增加

python、neo4j、heap-memory、py2neo

我正在使用python中的网络爬虫(Scrapy)不断下载数据(单词)，并将单词作为节点通过py2neo实时保存到neo4j中。我的代码看起来就像这样： node=graph.merge_one("WORD","name

浏览 3提问于2016-01-13得票数 0

点击加载更多