Scrapy框架爬虫 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Scrapy:如何从crawler获取处理过的流水线项目？

、

我创建了一个带有几个管道步骤的Scrapy Crawler。爬虫是一个更大的框架的一部分，它需要爬虫返回一个解析的项目列表。在Scrapy中，我实现了一个包含几个规范化步骤的管道。由于Scrapy是更大的框架的一部分-如果我可以在通过整个管道后将项目返回到爬虫和/或框架，那就太好了。有没有办法做到这一点？

浏览 0提问于2013-12-05得票数 0

1回答

我正在从一个更大的框架中调用一个基于Scrapy的爬虫。在爬行过程中，Scrapy记录所有事件。抓取之后，抓取应该停止日志记录，调用框架应该接管日志记录任务，并再次打印出来。如何阻止Scrapy 控制所有日志并将其传递回我的框架？更新：我将crawler.spider.settings.overrides['LOG_ENABLED'] = False添加到我的爬虫中。刮痕一直在阻止我打印到标准

浏览 2提问于2013-12-10得票数 1

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

如何提取我的爬虫目前所站的网址？

、、

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

爬行NodeJs和AngularJs站点

、、、

我正在尝试用scrapy python爬行网站，大多数网站都做得很成功，但大多数网站都给了很长时间，因为它们运行在Nodejs和angularjs框架或其他java框架上，而scrapy爬虫无法从页面中获得详细信息import scrapyfrom scrapy.http import TextResponse

浏览 2提问于2017-04-04得票数 1

回答已采纳

2回答

Scrapy一次运行所有的蜘蛛。我想一次只运行一个爬虫。抓取<spider>

、、

我是Scrapy的新手，正在尝试使用这个框架。真正令人沮丧的是，当我运行"scrapy crawl ( spider的名字)“时，它会运行我的"spiders”文件夹中的每一个爬虫。我怎么才能让scrapy一次只运行一只蜘蛛呢？

浏览 27提问于2019-10-27得票数 3

1回答

如何用python多进程检查网页是否存活

、

我有一个urls列表(大约25k)，我正在尝试检查它们是否有效(200个响应)。我想使用Python的多处理库并行执行这些检查。我写了以下代码(主要基于Python文档示例)，但运行速度似乎相当慢。有什么方法可以让这个脚本运行得更快吗？ import time

浏览 0提问于2011-08-06得票数 0

回答已采纳

1回答

检查500错误以旁路

、、、

我使用Scrapy框架来抓取数据。如果我的爬虫遇到500错误，它将被中断。因此，我需要在解析web内容之前检查可用的链接。非常感谢。

浏览 3提问于2012-08-30得票数 0

回答已采纳

1回答

在python中启动Twisted.internet.reactor

、

我正在尝试运行一个爬虫(用scrapy框架编写)，以便从python脚本而不是命令行工具运行。Scrapy是在扭曲的互联网框架上编写的，该框架有一个无法在过程中重新启动的反应器。

浏览 1提问于2014-02-17得票数 1

1回答

如何从另一个抓取蜘蛛开始

、、、

我在一个Scrapy项目中有两个蜘蛛。Spider1爬行页面列表或整个网站并分析内容。Spider2使用Splash在谷歌上获取URL，并将该列表传递给Spider1。因此，无需Spider2调用即可使用Spider1对内容进行爬行和分析from scrapy.spiders import CrawlSpider name = "spider1"

浏览 7提问于2017-07-25得票数 3

回答已采纳

1回答

linux上的shell脚本

、、

nohup scrapy crawl f & wait $!nohup scrapy crawl h & wait $!nohup scrapy crawl i & nohup scrapy crawl k & wait $

浏览 2提问于2012-11-03得票数 2

回答已采纳

2回答

无法从AWS Lambda上的Scrapy获得结果

、、、、

我用python库构建了一个爬虫。在本地运行时，它工作得非常完美和可靠。我试图将它移植到AWS lambda (我已经对它进行了适当的打包)。然而，当我运行它时，当爬行运行时，进程不会被阻塞，而是在爬虫返回之前完成，没有给出结果。这是我在日志退出前从日志中取出的最后一行：[] 2018-09-12 18:58:07 [scrapy.core.engine] INFO: Spider

浏览 0提问于2018-09-12得票数 4

回答已采纳

1回答

twitter好友爬行器

、

是否有可能根据友谊信息为twitter编写一个爬虫？我环顾四周，但至今没有发现任何有用的东西。谢谢莱拉

浏览 1提问于2011-03-17得票数 0

1回答

网络抓取与坏的wifi:我可以让我的抓取‘上线’再次？

、

我正在为10.000+网页做一个很大的python抓取，这花了我几个小时的时间。如果我在这个过程中断开了与互联网连接，我的脚本就会停止，当wifi再次连接起来时，它不会重新连接。

浏览 1提问于2015-04-29得票数 0

1回答

集成Django Rest框架和Scrapy

、、、

Scrapy和Django框架都是独立的最好的Python框架，可以用更少的代码构建爬虫和web应用程序，尽管如此，当你想要创建爬行器时，你总是必须生成新的代码文件，并且必须编写相同的代码段(尽管有一些变化这可以让你在不写多个文件的情况下创建爬虫。我认为Crawlrunner https://docs.scrapy.org/en/latest/topics/practices.html在这方面会有所帮助，因此我也尝试了一下Eas

浏览 16提问于2019-06-15得票数 4

1回答

如何使用ASP核心运行爬虫、服务交互和生命周期问题

、、

我用ASP Core3.1应用程序开发了一个网络爬虫。其根本原因是，尽管应用程序作为一个整体被设计为一个API (用于启动爬虫、停止它、获取一些爬行数据)，但这些服务在后台运行的时间比API请求甚至会话长得多。我知道Singleton模式会导致问题，但是我没有更好的方法来运行这个爬虫。我应该期待哪些问题，是否有更合适的方法来设计这些服务？

浏览 3提问于2020-03-03得票数 0

回答已采纳

1回答