腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8581)
视频
沙龙
1
回答
为什么
通过
CrawlerProcess
运行
多个
抓取
爬行
器
会
导致
spider_idle
信号
失败
?
将所有请求一次排队
会
导致
数千个请求
失败
,因为会话令牌在随后的请求发出之前就过期了。 因此,我发出了合理数量的请求,这些请求将在会话令牌过期之前可靠地完成。当一批请求完成时,将触发
spider_idle
信号
。 如果需要进一步的请求,则
信号
处理程序请求将新的会话令牌用于下一批请求。当正常
运行
一个
爬行
器
或
通过
CrawlerProcess
运行
一个
爬行
器
时
浏览 24
提问于2019-06-14
得票数 0
回答已采纳
2
回答
Scrapy使用系统中的两个核心
、
我正在使用他们的内部API
运行
scrapy,到目前为止一切都很好。但我注意到它并没有完全使用设置中提到的16的并发性。我已经将延迟改成了0,其他我能做的都改了。这就是我知道上面构建scrapy的扭曲库是单线程的,这就是
为什么
它只使用单核的原因。 有没有办法说服scrapy使用所有的核心?
浏览 15
提问于2017-08-13
得票数 0
2
回答
在Scrapy爬虫完成
爬行
时
运行
代码
、
、
有没有办法让Scrapy在
爬行
完全完成后执行代码,以处理移动/清理数据?我确信这是微不足道的,但我的Google-fu似乎为了这个问题而离开了我。
浏览 0
提问于2013-06-28
得票数 8
1
回答
Scrapy Crawler进程设置
、
、
我已经构建了
多个
爬虫程序,并希望使用
CrawlerProcess
同时
运行
它们。但是,在构建
爬行
器
时,我对其进行了设置,这样它们的
运行
速度
会
稍慢一些,并且会有下载延迟。当单独
运行
爬虫时,设置工作得很好,但当我
运行
所有四个爬虫时,它的
爬行
速度非常快,一些网站将我踢出网络。我想知道的是
为什么
CrawlerProcess
不遵循设置,如果有一种方法可以实现这一点,我该如何实现。__file_
浏览 25
提问于2018-12-13
得票数 1
回答已采纳
1
回答
信号
只在主线程中起作用
、
、
我正在尝试
通过
django视图
运行
我的
抓取
爬行
器
。当我
通过
命令提示符
运行
时,我的scrapy代码
运行
得很好。但是当我尝试在django上
运行
它时,它
失败
了。错误消息: signal只在主线程中工作。from twisted.internet import reactorfrom scrapy.crawler import
CrawlerP
浏览 1
提问于2016-03-10
得票数 23
1
回答
重复地从同一url
抓取
数据,并有一定的延迟。
、
、
我试图在一段时间内持续
抓取
单个网页,以监控一些值以及它们在这段时间内的变化情况timecheck = timeit.default_timer() if __name__ == "__main__":
浏览 18
提问于2017-07-04
得票数 3
回答已采纳
8
回答
如何从Python脚本中
运行
Scrapy
、
、
、
我是Scrapy的新手,我正在寻找一种从Python脚本
运行
它的方法。我找到了两个来源来解释这一点: from scrapy.conf import settings def __in
浏览 0
提问于2012-11-18
得票数 82
5
回答
当脚本位于根目录之外时,获取scrapy项目设置
、
、
、
我已经制作了一个Scrapy
爬行
器
,可以从位于项目根目录的脚本中成功
运行
。由于我需要从同一脚本
运行
来自不同项目的
多个
爬虫(这将是一个django应用程序根据用户的请求调用脚本),因此我将脚本从其中一个项目的根目录移动到父目录。由于某些原因,脚本不再能够获取项目的自定义设置,以便将
抓取
的结果
通过
管道传输到数据库表中。下面是我用来从脚本
运行
爬行
器
的scrapy文档中的代码: s
浏览 2
提问于2015-07-28
得票数 15
2
回答
从python脚本调用scrapy而不是创建JSON输出文件
、
、
、
self.exporter.export_item(item) return item创建了一个具有预期输出的链接文件,当我执行.But脚本时,它没有创建任何文件,尽管爬虫
运行
时转储的scrapy统计数据与上一次
运行
的相似
浏览 4
提问于2013-03-19
得票数 3
2
回答
什么更好,更高的GHz和更少的核心或更多的GHz更低的红宝石应用程序
、
、
我刚刚完成了一个网络爬虫的开发,它基本上允许用户
抓取
他们的网站,它
通过
他们的网站告诉他们错误。然而,我的应用程序是非常服务
器
资源密集型。这是一个红宝石应用程序使用rails,mongo,一些宝石和
运行
在后台使用延迟作业
爬行
。如果我再尝试
爬行
,那么每次5次,这个过程就会被杀死,
爬行
失败
。当一次
抓取
5个网站时,我的CPU使用率是95% - 100%,而我只使用了大约600 my的ram。我正在市场上购买一台服务
器
,我的预
浏览 0
提问于2012-01-11
得票数 2
2
回答
木偶人
爬行
器
大规模
爬行
、
、
我们写的木偶爬虫执行和
爬行
网站的网址没有问题的网页,如约1,500 - 5,000,但是,当我们执行的网站超过5,000,如果它在中间由于一些错误或崩溃而中断,那么它需要重新开始。如果出现任何错误,如何使基于Puppeteer的网络爬虫从
爬行
的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web
爬行
通过
一个队列系统?
浏览 14
提问于2020-12-05
得票数 2
2
回答
Python Scrapy -如何同时从2个不同的网站
抓取
?
、
我需要从Excel中给出的域列表中
抓取
数据;问题是我需要从原始网站(让我们举个例子:)和从similartech ()
抓取
数据。我希望它们同时被
抓取
,这样我就可以接收它们,并在最后格式化它们一次,之后我将直接转到下一个域。 理论上,我应该在scrapy中以异步方式使用2个
爬行
器
?
浏览 2
提问于2020-02-10
得票数 1
3
回答
Scrapy -如何启动同一爬虫进程的
多个
实例?
、
、
、
我在启动同一爬虫的
多个
实例时被卡住了。我想让它像一个爬虫实例的1url一样
运行
。我必须处理50k个urls,为此,我需要为每个urls启动单独的实例。在我的主要爬虫脚本中,我设置了7分钟的closedpider超时,以确保我不会
爬行
很长时间。请参考下面的代码:from scrapy.utils.project import get_project_settings()请建议我应该做些什么才能让
浏览 1
提问于2015-11-13
得票数 6
1
回答
从爬网命令和从
CrawlerProcess
运行
爬虫不会输出相同的结果
、
、
我过去常常使用现在,我需要从脚本(从django应用程序,使用django-rq )
运行
爬行
器
因此,我遵循
CrawlerProcess
文档以如下所示的脚本结束crawler_settings.setmodule(cotextractor_settings'))问
浏览 13
提问于2017-07-12
得票数 0
回答已采纳
5
回答
在本地
运行
Scrapy中的所有
爬行
器
、
、
有没有办法在不使用Scrapy守护进程的情况下
运行
Scrapy项目中的所有
爬行
器
?过去有一种方法可以用scrapy crawl
运行
多个
爬行
器
,但这种语法被删除了,Scrapy的代码也发生了很大的变化。self.crawler.spiders.create(spider_name)但是,一旦一个
爬行
器</em
浏览 0
提问于2013-03-22
得票数 17
回答已采纳
1
回答
ScrapyRT vs Scrapyd
、
、
、
它为一个scrapy项目提供了一个很好的包装
器
,并且它的
爬行
器
可以
通过
HTTP API控制
爬行
器
:Scrapy 服务
器
,它提供了用于调度Scrap
浏览 120
提问于2016-05-18
得票数 26
回答已采纳
1
回答
刮擦蜘蛛
运行
,但o页
爬行
、
、
、
我是新的网络刮刮,并试图
运行
一个简单的蜘蛛收集名称,品牌和价格信息,从一个网站销售山地自行车。我试图建立和
运行
蜘蛛所有的脚本,因为我认为这是更简单的人在我的水平。
爬行
器
运行
,但得到的.csv文件为空。尝试
运行
蜘蛛后,终端中的消息
会
让您知道INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)。我不知道
为什么
这只蜘蛛不
爬行
,也不
浏览 22
提问于2022-09-28
得票数 0
2
回答
GSA是否可以将Apache Solr索引的数据用作组合解决方案进行搜索
、
、
、
据观察,google没有
通过
其企业搜索解决方案Google search Appliance提供良好的索引。但是Apache solr有很好的索引能力。我们是否可以使用apache solr来索引文档,然后
通过
GSA服务
器
搜索这些文档。这样我们才能充分利用这两个世界。请谈谈你的想法??
浏览 2
提问于2015-05-19
得票数 1
1
回答
测试咖啡馆测试在
信号
量中
运行
时偶尔挂起
、
、
、
、
这并不是关于固定挂起的问题,而是想知道是否有一种方法可以让test咖啡馆在给定的时间后决定测试必须
失败
。我们的测试在本地机器上
运行
良好,但偶尔在CI中使用
信号
量上的对接
器
映像
运行
时,其中一个选择
器
会
导致
它挂起。我很好地研究了
为什么
会
这样,但是如果我可以让测试在5分钟后放弃(它应该在3分钟以下完成),然后优雅地退出,这样我们就可以拥有堆栈跟踪和视频--如果我们必须终止测试
运行
,我们也得不到任何一个,所
浏览 1
提问于2021-10-04
得票数 0
1
回答
Scrapy Crawler
多个
域在检索源页面后没有错误地完成
、
尝试让Scrapy
抓取
多个
域。我让它工作了很短时间,但有些东西改变了,我不知道是什么。我的理解是,带有规则的"CrawlSpider“应该遵循任何允许的链接,直到深度设置或域名耗尽。), callback='parse', follow=True),) print(response.url) 'http://www.bbc.com/n
浏览 29
提问于2018-06-03
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python爬虫系列开发scrapy掌握(一)
网站首页收录内页不收录原因总结
搜索引擎蜘蛛为什么对网站不爬行呢?
scrapy官方文档提供的常见使用问题
七款必备的Python爬虫库,你知道几个?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券