使用CrawlerProcess的Scrapy无限循环

、

我目前运行的是Scrapy v2.5，我想运行无限循环。我的代码： class main(): mongo = mongodb(setting__name__ == "__main__": while True: process = CrawlerProce

浏览 57提问于2021-05-10得票数 0

1回答

在一个进程中运行多个爬行器--没有保存输出数据

、、、

尝试使用Scrapy创建货币解析器。创建了两个蜘蛛，如果它们单独运行，它们可以正常工作。尝试为每个进程运行两个爬行器-在输出中不提供任何数据。无论是否尝试将其保存到txt、json或数据库。使用MySQL数据库。但是在每个进程中运行一个爬虫--成功地保存了数据。将数据保存到数据库或其他任何位置的唯一方法是运行scrapy crawl Liga && scrapy crawl IFinance。主要的爬虫代码： from scrapy.

浏览 12提问于2019-04-25得票数 0

回答已采纳

1回答

如何让Scrapy在python项目中爬行？

、

我有一个个人项目，它导致我使用Selenium，以便从一对私人邮件，密码夫妇那里获得一个公共url地址。我想在这个url上保存信息，我按照Scrapy教程学习了如何使用这个工具。但是，有没有一种方法可以在MyScrapClass.crawl()这样的Python项目中启动爬行，而不是使用linux命令scrapy crawl MyScrapProject？

浏览 1提问于2016-03-21得票数 0

1回答

我可以在项目目录之外执行scrapy(python)爬行吗？

、、、

文档说我只能在项目目录中执行爬网命令：但我真的需要在我的python代码中执行它( python文件不在当前项目目录中)#!', 'project.settings') from scrapy.conf import settings from sc

浏览 2提问于2012-03-02得票数 1

回答已采纳

1回答

使用scrapy检测无限爬行页和爬行

、、

我正在尝试抓取所有的网址从一个网站使用刮除。但是网站中的一些页面有无限的滚动，并且爬行的数据是不完整的。所使用的代码是from scrapy.linkextractors import LinkExtractor 'url': response.url,

浏览 3提问于2022-06-08得票数 0

回答已采纳

1回答

如何为CrawlerProcess* Scrapy中的两种不同的蜘蛛指定不同的进程设置？*

、、、

我使用CrawlerProcess实例及其crawl方法来解决这个问题。但是，我希望为同一进程中的每个蜘蛛指定不同的输出文件，即FEED_URI 。我试图循环蜘蛛并运行它们，如下所示。虽然生成了两个不同的输出文件，但进程在第二个蜘蛛完成执行后立即终止。如果第一个蜘蛛在第二个蜘蛛之前完成爬行，我将得到所需的输出。但是，如果第二个蜘蛛先完成爬行，那么它就不会等待第一个蜘蛛完成。from scrapy.utils.project import get_pro

浏览 1提问于2020-06-18得票数 1

4回答

scrapy日志处理程序

、、

我在以下两个问题上寻求您的帮助-如何像在python中那样为不同的日志级别设置处理程序。目前，我有STATS_DUMP = True 但是Scrapy生成的调试消息也会添加到日志文件中。这些都是非常长的和理想的，我希望调试级别的消息留下的标准错误和信息消息被转储到我的LOG_FILE。其次，在文档中，它说The logging servic

浏览 2提问于2011-11-30得票数 4

回答已采纳

1回答

运行刮除蜘蛛的多个进程

、

我有一个Scrapy项目，它从数据库中读取100万个产品ID，然后根据一个网站的ID开始刮取产品详细信息。我想运行10个Spider实例，每个实例分配相同数量的产品ID。FROM product_ids，然后除以10，然后执行我有一个想法，我可以在终端中通过在刮擦命令中传递LIMIT，比如scrapy但是我想在蜘蛛里做，所以我只运行了一次蜘蛛，然后它在蜘蛛体内运行了10个相同的蜘蛛

浏览 0提问于2016-10-13得票数 1

1回答

如何在列表<li>的最后一个元素之前选择Scrapy的xpath？

、、、

我在使用分页时遇到了一个问题，页面没有一个特定的标签或属性作为下一页按钮(在网站底部)，我意识到我没有得到所有的数据。我如何选择前一位？def parse_items(自，响应)：response.xpath(self.getAllItemsXpath)中的href : url = response.urljoin(href.extract())

浏览 2提问于2022-05-04得票数 0

回答已采纳

1回答

如何运行并保存python脚本中的scrapy状态

、、、、

在scrapy项目中，我们可以通过为eg设置JOBDIR来定义作业目录，从而获得持久性支持。scrapy crawl somespider -s JOBDIR=crawls/somespider-1 但是，如何在使用scrapy.crawler.CrawlerProcess从python脚本运行蜘蛛时也这样做，如中所回答的那样

浏览 0提问于2018-05-03得票数 2

回答已采纳

1回答

Scrapy CrawlerProcess不使用代理

、、

我创建了一个使用scrapy，splash和proxy的爬虫。# -*- coding: utf-8 -*-from scrapy_splash import SplashRequest from scrapy.crawlercrawl ads_spi

浏览 1提问于2021-09-20得票数 1

2回答

从python脚本调用scrapy而不是创建JSON输出文件

、、、

下面是我用来调用scrapy的python脚本，答案是 reactor.stop()from scrapy import log,signals from scrapy.contrib.exporter import JsonItemExporterfrom scrapy.xlib.pydispatch import dispatche

浏览 4提问于2013-03-19得票数 3

3回答

如何在Jupyter中运行Scrapy项目？

、、

在苹果电脑上，我安装了Jupyter，当我在Scrapy项目的根文件夹中输入jupyter notebook时，它会打开笔记本。此时，我可以浏览所有的项目文件。There are no terminals running.

浏览 74提问于2016-11-29得票数 11

1回答

我怎么叫刮痕从气流达格？

、

我的刮刮项目使用'scrapy爬行spider_1‘命令运行得非常好。如何从气流达格触发它(或调用报废命令)？with DAG(<args>) as dag: task_id='scrapy', task_3 = ()scrapy_task >>

浏览 2提问于2022-05-11得票数 2

2回答

如何在asyncio甚至循环内运行scrapy* spider？*

、

有没有办法在asyncio循环中运行scrapy spider？例如，在以下代码中：from scrapy.crawler import CrawlerProcessimportscrapy process = CrawlerProcess() await process.crawl(MySpider)loop = async

浏览 1提问于2017-12-04得票数 5

1回答

从Flask路由开始scrapy

、、

我想建立一个爬虫，需要抓取网页的网址，并将结果返回给一个网页。现在，我从终端启动scrapy并将响应存储在一个文件中。当一些输入发布到Flask、处理并返回响应时，我如何启动爬虫？

浏览 1提问于2015-07-24得票数 5

1回答

使用python抓取网页

、、、

非常感谢你的帮助。我试图抓取一个网页，部分代码如下所示。但是我得到了错误。非常感谢你的帮助。 # -*- coding: utf-8 -*-from scrapy import cmdlineimport pandas as pd name = 'gofund' cmdline.execute('scrap

浏览 30提问于2020-03-29得票数 0

1回答

从脚本运行Scrapy* -挂起*

、

我正在尝试从脚本中运行scrapy，就像讨论的一样。它建议使用代码片段，但当我这样做时，它会无限期地挂起。这是在.10版本中写回的；它仍然与当前的稳定版本兼容吗？

浏览 1提问于2011-06-27得票数 7

回答已采纳

2回答

如何将自定义参数(如-o)传递给抓取爬虫

、

我目前正在从事python2.7/Scrapy1.8项目。我在码头集装箱内工作，并使用import scrapyprocess.crawl(similartechSpider.Simi

浏览 3提问于2020-04-20得票数 0

3回答

在scrapy中为1个网站并行运行多个爬虫？

、、、、

我想抓取一个网站与2部分，我的脚本不是那么快，我需要的。scrapy crawl firstSpider但我认为这并不明智。我读了，但我不知道它是否对我的情况有好处。

浏览 2提问于2016-09-07得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在一个进程中运行多个爬行器--没有保存输出数据

如何让Scrapy在python项目中爬行？

我可以在项目目录之外执行scrapy(python)爬行吗？

使用scrapy检测无限爬行页和爬行

如何为CrawlerProcess* Scrapy中的两种不同的蜘蛛指定不同的进程设置？*

scrapy日志处理程序

运行刮除蜘蛛的多个进程

如何在列表<li>的最后一个元素之前选择Scrapy的xpath？

如何运行并保存python脚本中的scrapy状态

Scrapy CrawlerProcess不使用代理

从python脚本调用scrapy而不是创建JSON输出文件

如何在Jupyter中运行Scrapy项目？

我怎么叫刮痕从气流达格？

如何在asyncio甚至循环内运行scrapy* spider？*

从Flask路由开始scrapy

使用python抓取网页

从脚本运行Scrapy* -挂起*

如何将自定义参数(如-o)传递给抓取爬虫

在scrapy中为1个网站并行运行多个爬虫？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐