腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4475)
视频
沙龙
1
回答
如何
限制
蜘蛛
爬虫
在
scrapy
中
达到
一定
数量
的
下载
后
停止
?
python
、
scrapy
我需要去一个网站,有一个文件列表,并
下载
每个项目。问题是,每天
的
下载
是有限
的
(认证系统),所以我
的
爬行器需要在
下载
几个项目时
停止
,他将无法从那里
下载
任何文件。这就是我尝试过
的
: settings.py CLOSESPIDER_ITEMCOUNT = 10 CLOSESPIDER_PAGECOUNT = 50 它不起作用,因为
scrapy
与自然是异步
的
,并且不够聪明,不足以考虑丢弃
的
浏览 69
提问于2021-04-01
得票数 0
2
回答
在
脚本
中
运行
scrapy
X小时?
scrapy
、
scrapy-spider
有没有办法将
scrapy
作为bash脚本
的
一部分运行,并且只运行
一定
的
时间?也许可以
在
X小时
后
模拟Ctrl-C + Ctrl-C?
浏览 0
提问于2016-11-25
得票数 1
1
回答
Scrapy
中
的
限制
请求
python
、
python-3.x
、
scrapy
、
twisted
我正在用
Scrapy
开发一个
蜘蛛
,它可以迭代通过一个键控
的
url。例如,它将使用url作为模板(例如https:\google.com{key})。我遇到了一个问题,我不能让它在正确
的
时间
停止
对这些urls
的
迭代。例如,如果我开始接收到足够多
的
失败请求,比如404,我想要终止,这样我就不会发送超过需要
的
请求。它将
停止
爬虫
,但不会在一些请求完成之前
停止
。 然后,我尝试在跟踪已执行/失败<em
浏览 10
提问于2019-08-09
得票数 0
回答已采纳
2
回答
如何
在多个
爬虫
在
同一进程
中
运行时
停止
反应器
python
、
web-crawler
、
scrapy
我读过和
的
文章,并且让多个
爬虫
在
同一个进程
中
运行。然而,我不知道
如何
设计一个信号系统,在所有
蜘蛛
完成
后
停止
反应堆from twisted.internet import reactorfrom
scrapy
.settings import Settings from
scrapy
浏览 2
提问于2013-09-13
得票数 7
2
回答
对测试
的
刮擦
限制
请求
python
、
python-2.7
、
web-scraping
、
scrapy
、
scrapy-spider
我一直
在
搜索刮伤文档,寻找一种
限制
我
的
蜘蛛
可以请求
的
数量
的
方法。
在
开发过程
中
,我不想坐在这里等待我
的
蜘蛛
完成整个爬行,即使爬行非常专注,它们仍然需要很长一段时间。我希望有这样
的
能力,“在对站点
的
x请求之后,我将
停止
生成新
的
请求。” 我想知道,
在
我试图想出自己
的
解决方案之前,是否存在这样
浏览 2
提问于2015-06-19
得票数 4
回答已采纳
3
回答
可以
在
scrapy
中
设置动态
下载
延迟吗?
scrapy
、
web-crawler
、
delay
我知道可以设置一个恒定
的
延迟DOWNLOAD_DELAY = 2我想要做
的
是将download_delay保持为0。一旦
在
html中发现了“请求太频繁”
的
msg。或者有没有其他更好
的
办法来处理这种情况? 更新:我发现这是一个扩展调用,但它能定制一些
浏览 4
提问于2014-12-03
得票数 4
4
回答
有没有办法确定理想
的
线程数?
java
、
multithreading
、
performance
、
metric
我正在做一个网络
爬虫
,并使用线程
下载
页面。第二件事是我感兴趣
的
。我正在使用线程同时
下载
多个页面,但随着我创建更多
的
线程,更多
的
处理器共享发生了。是否有一些度量/方式/类别的测试来确定理想
的
线程
数量
,或者
在
达到
一定
<
浏览 0
提问于2011-05-20
得票数 6
回答已采纳
1
回答
是每只
蜘蛛
还是每台机器刮伤
的
CONCURRENT_REQUESTS?
scrapy
、
scrapy-spider
新手在这里设计他
的
建筑问题: 我
的
目标,,我想要跟踪多个推特档案随着时间
的
推移。我想要构建
的
东西:是一个SpiderMother类,它与一些数据库(holding CrawlJobs)接口,生成和管理许多小型
蜘蛛
,每一个
在
twitter上以不规则
的
间隔爬行一个用户页面(作业将按照某种算法添加到数据库
中
它们是由SpiderMother作为子进程生成
的
,根据爬行
的
成功程度,数据库作业将被删除。这是个好建筑吗?我看到<em
浏览 0
提问于2018-09-19
得票数 1
回答已采纳
1
回答
Scrapy
能爬行任何类型
的
网站吗?
python
、
scrapy
Scrapy
框架是否有效地爬行任何网站?我之所以问这个问题,是因为我在他们
的
教程中发现,他们通常构建
的
正则表达式依赖于网站
的
体系结构(链接
的
结构)来爬行。这是否意味着
Scrapy
不能是通用
的
,并且能够爬行任何网站,不管它
的
URL是以何种方式构建
的
?因为
在
我
的
例子
中
,我必须处理大量
的
网站:不可能为每个网站编写正则表达式。
浏览 4
提问于2014-08-08
得票数 0
回答已采纳
1
回答
刮擦:为什么要用管道?
python
、
scrapy
、
web-crawler
、
splash-screen
我
在
Scrapy
+Splash有一个工作
的
爬虫
。它在许多页上发射一只
蜘蛛
。每个页面都包含一个链接列表。对于每个页面,
蜘蛛
会
下载
该页面,其中一些页面是从该页面链接
的
(而不是递归
的
)。所有的页面都保存在文件系统
中
。这个系统运行得完美无缺。目前,我正在重构它以添加一些DB交互。我不使用项,也不使用项管道。使用它们有什么好处?添加一些信息:我
的
爬虫
的
目的是
下载</
浏览 2
提问于2017-08-08
得票数 1
回答已采纳
1
回答
如何
让抓取
蜘蛛
从起始网址
下载
图片?
python
、
scrapy
、
web-crawler
['https://image.jpg'] for url in self.start_urls: # print(response.url) yield item 我
的
爬行器现在可以从start_urls
下载
图像,但请求被发
浏览 22
提问于2020-04-26
得票数 0
1
回答
通过Django视图运行
Scrapy
python
、
django
、
web-scraping
、
scrapy
、
web-crawler
因此,我正在做以下项目: 我正在使用Django开发一个网站,将作为一个网络
爬虫
的
远程管理工作。更具体地说,我用
Scrapy
创建了一个
蜘蛛
,可以从另一个网站
下载
一些PDF文件。我
的
目标是找到一种通过POST (我猜)请求调用爬行器
的
方法,并让
爬虫
在
我
的
Django视图中运行。
下载
的
文件将存储到运行网站
的
服务器上,而不是存储到运行爬行器
的
任何人<e
浏览 0
提问于2017-08-16
得票数 2
1
回答
关闭主要刮擦管道,但将图像
下载
保存到刮擦完成为止
python
、
exception
、
scrapy
、
pipeline
对于
如何
在抓取图像
下载
管道,或者
停止
爬行管道而不杀死其余
的
文件,有什么想法吗?我正在用
scrapy
的
蜘蛛
编写
爬虫
代码。我
的
目标是爬行页面,一旦满足条件(刮过
的
更新日期比参数更早),关闭爬行过程。但是,我不希望
在
完成任务之前关闭图像
下载
管道。到目前为止所取得
的
成就如下: 所有数据(图像除外)都被正确地存储,并且
蜘蛛
关闭
浏览 2
提问于2020-11-27
得票数 0
回答已采纳
3
回答
记录在
scrapy
中
运行爬行器所用
的
总时间
python
、
scrapy
我正在使用
scrapy
来销毁一个网站 我已经写了一个爬行器,并从页面获取所有的项目并保存到csv文件
中
,现在我想保存
scrapy
获取
的
total execution time来运行
蜘蛛
文件,实际上
在
爬行器执行完成
后
,当我们
在
终端时,它将显示一些结果,如starttime, endtime等。因此,现在在我
的
程序
中
,我需要计算
scrapy
运行
爬虫
所用
的
总时间,并将总
浏览 3
提问于2012-06-28
得票数 6
回答已采纳
3
回答
何时以及
如何
在一个
Scrapy
项目中使用多个
蜘蛛
python
、
scrapy
我正在使用
Scrapy
,它太棒了!这么快就造了个
爬虫
。随着网站
数量
的
增加,需要创建新
的
蜘蛛
,但这些网站
的
位置是相同
的
类型,所有这些
蜘蛛
使用相同
的
项目,管道,解析过程。将所有公共设置放置
在
settings.py
中
,一个
蜘蛛
的
特殊设置
在
[spider name]_settings.py
中
,例如: spider1<e
浏览 3
提问于2014-08-01
得票数 23
4
回答
从urls列表中
下载
<very large> number of pages
的
最佳方式是什么?
python
、
multithreading
、
multiprocessing
、
scrapy
、
web-crawler
我有一个>100,000
的
urls (不同
的
域名)
在
一个列表
中
,我想
下载
并保存在数据库
中
,以便进一步处理和修补。另外,你也可以自由地提出你脑海中出现
的
其他很棒
的
方法。
浏览 2
提问于2013-06-06
得票数 5
回答已采纳
1
回答
向from_crawler脚本添加
scrapy
.xlib.pydispatch方法
python-3.x
、
selenium
、
scrapy
如果你发现这个问题研究得很好,并且对你有用的话,
一定
要投赞成票。其他人也应该有同样
的
机会找到有用
的
职位。不久前,我
在
使用windows上用python编写
的
scrapy
蜘蛛
时,有了这个功能代码,现在它出现在使用
scrapy
爬行器时。ScrapyDeprecationWarning:不再推荐从
scrapy
.xlib.pydispatch导入,并且
在
将来
的
Scrapy
版本
中</
浏览 4
提问于2019-10-08
得票数 1
1
回答
对
一定
数量
的
请求
限制
刮擦
蜘蛛
python
、
scrapy
当
达到
一定
的
请求
限制
时,我希望我
的
刮破
蜘蛛
关闭。我试过了,但不是为我工作。它再次显示输入消息,并且
在
达到
限制
之前不会中断。我想要
的
是: # -*- coding: utf-8 -*- links_list=
浏览 3
提问于2020-07-27
得票数 0
回答已采纳
2
回答
我
如何
安排抓取
蜘蛛
在
一定
的
时间
后
爬行?
scrapy
、
scrapy-spider
我想安排我
的
蜘蛛
在
爬行完成
后
1小时内再次运行。
在
我
的
代码
中
,spider_closed方法是
在
爬行结束
后
调用
的
。现在,
如何
从这个方法再次运行爬行器。或者是否有任何可用
的
设置来调度抓取
蜘蛛
。这是我
的
基本
爬虫
代码。import
scrapy
from a2i.items import A
浏览 2
提问于2016-06-19
得票数 4
1
回答
在
使用py2neo时,Java内存不断增加
python
、
neo4j
、
heap-memory
、
py2neo
我正在使用python
中
的
网络
爬虫
(
Scrapy
)不断
下载
数据(单词),并将单词作为节点通过py2neo实时保存到neo4j
中
。我
的
代码看起来就像这样: node=graph.merge_one("WORD","name
浏览 3
提问于2016-01-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy官方文档提供的常见使用问题
Python技术:Scrapy架构介绍
Scrapy源码(1)——爬虫流程概览
python爬虫系列开发scrapy掌握(一)
大神教你十分钟写界面化爬虫,爬取百思不得姐美眉视频:附源码
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券