问Scrapy:如何从crawler获取处理过的流水线项目？
EN

Stack Overflow用户

提问于 2013-12-05 18:19:42

回答 1查看 267关注 0票数 0

我创建了一个带有几个管道步骤的Scrapy Crawler。爬虫是一个更大的框架的一部分，它需要爬虫返回一个解析的项目列表。

在Scrapy中，我实现了一个包含几个规范化步骤的管道。由于Scrapy是更大的框架的一部分-如果我可以在通过整个管道后将项目返回到爬虫和/或框架，那就太好了。有没有办法做到这一点？

例如一些伪代码

url = 'http://somewebsite.com'
crawler = MyCrawler(url)
# each parsed website passes each pipeline step and is yielded / returned.
all_items_from_pipeline = crawler.run()

python

scrapy

回答 1

Stack Overflow用户

发布于 2013-12-05 20:19:07

你不能用函数式的方式来做这件事，因为Scrapy是异步的。但您可以将项目保存在文件或数据库中，然后其他组件可以从那里获取它们。

您还可以获得的好处是，项目可以存储在那里，直到需要。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/20397281

复制

相似问题

问Scrapy:如何从crawler获取处理过的流水线项目？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy:如何从crawler获取处理过的流水线项目？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy:如何从crawler获取处理过的流水线项目？
EN