scrapy架构_scrapy_Scrapy: scrapy不调用回调 - 腾讯云开发者社区

python、scrapy

我实现了一个依赖Scrapy同时运行多个蜘蛛的解决方案。根据我在这里所读到的()，为了优雅地向蜘蛛发出死亡的信号，我应该提出一个CloseSpider异常如下： class我意识到Scrapy是围绕一个异步框架构建的，但是有什么方法可以强迫爬行器关闭而不生成任何额外的出站请求呢？

浏览 0提问于2014-11-18得票数 2

回答已采纳

1回答

在解析回调之外产生刮擦的项

python、scrapy、scrapy-spider

我有一个Scrapy项目，其中有几个从CrawlSpider继承的蜘蛛。除了他们的正常执行(通过预期的网站)，我也希望能够推动项目以外的范围内的原始回调。我定义了一个线程，它遍历文件夹中的文件，然后将它们传递给parse_files，就好像它是Scrapy下载的内容一样。有什么办法可以让我通过管道和中间件生成的项目，就像它只是另一个下载的页面吗？我知道这不是他们想要的架构，但我想知道我是否能解决这个问题。我很熟悉Scrapy的架构，基本上是在寻找一种将物品推送到引擎的好方法。

浏览 1提问于2015-02-24得票数 3

回答已采纳

2回答

如何将抓取爬虫的结果作为变量，python？

python、web-scraping、web-crawler、scrapy

我想和Scrapy Crawler一起做这件事。我创建的架构有一个包含代码的start_script.py文件：import sys spider_name = 'example' for link in reader: os.system('scrapy也许还有其他方法可以用s

浏览 2提问于2015-08-16得票数 0

2回答

来自Scrapy的HtmlResponse不能从URL中检索数据

python、web-scraping、scrapy

from scrapy.selector import Selector谢谢

浏览 4提问于2015-06-30得票数 1

2回答

Scrapy管道架构-需要返回变量

scrapy

我需要一些建议，如何继续我的项目管道。我需要将一项发布到API (工作正常)，并使用response对象获取创建的实体的ID (让它也正常工作)，然后使用它填充另一个实体。理想情况下，item管道可以返回实体ID。基本上，我所处的情况是，我需要在一个非SQL数据库中编码一个到多个关系。最好的办法是什么？

浏览 0提问于2014-08-06得票数 0

回答已采纳

1回答

刮擦数据流、项目和项目装载机

python、python-3.x、python-2.7、scrapy

我正在查看Scrapy文档中的页面，但是我仍然有一些关于数据和或控制流的问题。Scrapy架构 Scrapy的默认文件结构myproject/ items.py pipelines.py/en/latest/topics/items.html class MyprojectItem(s

浏览 0提问于2018-06-29得票数 1

2回答

为Scrapy构建一个RESTful瓶API

python、heroku、flask、scrapy、twisted

有更好的方法来架构这个解决方案吗？或者我如何允许scrape_it在不停止扭曲的反应堆(不能再次启动)的情况下返回？import Flaskimport sysfrom twisted.internet import reactorfrom scrapy.crawler import CrawlerRunner

浏览 9提问于2015-09-22得票数 10

回答已采纳

1回答

我想用龙卷风创造一个Scarpy。用户可以在其中输入要搜索的URL并在UI中获得结果

python、python-3.x、scrapy、tornado、scrapy-spider

我只是在几天前才学会了scrapy。我想创建一个带有Tornado或其他Python设置的Scarpy。用户可以在其中输入URL进行抓取，并在UI中获得结果。

浏览 0提问于2018-06-19得票数 0

2回答

永久保存访问过的链接，以便明天不会访问

python-3.x、scrapy

我是Scrapy的新手。我想知道如何才能永久保存访问过的链接。我的意思是保存今天访问过的链接，这样明天就不会访问它们了。

浏览 5提问于2018-07-27得票数 0

2回答

点击li按钮的最佳方式是什么？

python、scrapy

当检查按钮时： <li class="nextpage"</li> 单页工作代码： import scrapyfrom ..items import BookItem name = "book_spider" start_urls

浏览 35提问于2019-05-02得票数 0

2回答

抓取和监视+1000个网站

python、scrapy

我需要帮助定义一个工具的架构，每天将刮超过1000个大网站为新的更新。我计划在这个项目中使用Scrapy：如果每个网站都需要一个项目，那么我如何处理抓取1000+网站并将它的数据存储在一个项目中呢？我试图添加一个项目生成器，但这是一个好主意吗？

浏览 9提问于2013-10-27得票数 2

回答已采纳

3回答

如何用scrapy和pyinstaller在windows10中创建一个可执行文件？

python、scrapy、pyinstaller

为了做到这一点，我必须在scrapy站点包中做一些细微的更改，并将这些包添加到windows磁盘文件夹中，它工作得很好。如何使用光盘文件夹中已注释的scrapy包将其转换为单个可执行文件？我已经尝试在pyinstaller中使用--OneFile命令，但它显示scrapy错误？

浏览 1提问于2019-03-25得票数 4

2回答

如何修复anaconda中的“启动器致命错误:无法使用path/scrapy.exe创建进程”？

python、scrapy、anaconda、virtualenv

我正在尝试在Windows 10上安装scrapy， Fatal error in launcher: Unable to create process using '"c:\bld\scrapy_1564100571450\_h_env\python.exe" "C:\Users\Rodz

浏览 1提问于2019-08-01得票数 6

2回答

我想在item类中添加item类

python、scrapy、scrapy-spider

"Information": ----, }, 我想创建如下所示的items.py (仅举个例子)： class Item(scrapy.Item): state = scrapy.Field() class first(scrapy.It

浏览 43提问于2019-01-18得票数 0

1回答

哪些文件的名称来自结果dir(scrapy)命令？

python、scrapy

通过下面的命令，我可以看到scrapy模块中的名称：>>>dir(scrapy)$find / -name "scrapy*" -print /usr/local&#

浏览 0提问于2018-07-28得票数 0

回答已采纳

1回答

Scrapy / Python:如何将项目添加到在类中创建的列表中？

python、list、class、collections、scrapy

job_name = scrapy.Field() start = scrapy.Field() operator = scrapy.Field() planned = scrapy.Field()

浏览 2提问于2018-04-18得票数 0

1回答

scrapy runspider:错误:无法加载‘runspider Spider.py’：无法从'scrapy‘导入名称'squeue’

scrapy

我正在尝试使用以下命令运行Scrapy爬行器： scrapy runspider -a main_url=https://www.imperium42.com WebHarvestSpider.py我得到了这个错误： Usage scrapy runspider [options] <spider_file> runspider: error: Unable to load 'WebHarvestSpider.py': cannot import name 's

浏览 226提问于2019-05-25得票数 0

回答已采纳

3回答

刮擦导入错误:没有名为Scrapy的模块

python、python-3.x、pip、scrapy、package

我使用命令行安装了scrapy安装后，我尝试在我的python项目中导入scrapy，但是出现了一个错误：File "C:\Users\Lenovo\Desktop\Linkedin\script.py", line 7, i

浏览 2提问于2020-01-05得票数 0

回答已采纳

1回答

在PyPy上运行Scrapy

python、scrapy、twisted、lxml、pypy

可以在Scrapy上运行PyPy吗？我查看了文档和github项目，但提到PyPy的唯一地方是2年前在PyPy上执行了一些单元测试，参见。据我所知，Scrapy的主要依赖项Twisted是。Scrapy还使用lxml进行解析，它有一个。另一个依赖项是完全支持的(感谢@Glyph的评论)。

浏览 2提问于2015-06-24得票数 3

回答已采纳

1回答

刮壳响应204

web-scraping、scrapy

因此，我在终端中键入scrapy shell bina.az/items/所有，我得到以下内容：这是因为云彩保护。

浏览 2提问于2018-12-01得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

不响应CloseSpider异常的刮伤

在解析回调之外产生刮擦的项

如何将抓取爬虫的结果作为变量，python？

来自Scrapy的HtmlResponse不能从URL中检索数据

Scrapy管道架构-需要返回变量

刮擦数据流、项目和项目装载机

为Scrapy构建一个RESTful瓶API

我想用龙卷风创造一个Scarpy。用户可以在其中输入要搜索的URL并在UI中获得结果

永久保存访问过的链接，以便明天不会访问

点击li按钮的最佳方式是什么？

抓取和监视+1000个网站

如何用scrapy和pyinstaller在windows10中创建一个可执行文件？

如何修复anaconda中的“启动器致命错误:无法使用path/scrapy.exe创建进程”？

我想在item类中添加item类

哪些文件的名称来自结果dir(scrapy)命令？

Scrapy / Python:如何将项目添加到在类中创建的列表中？

scrapy runspider:错误:无法加载‘runspider Spider.py’：无法从'scrapy‘导入名称'squeue’

刮擦导入错误:没有名为Scrapy的模块

在PyPy上运行Scrapy

刮壳响应204

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐