腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何为CrawlerProcess
Scrapy
中的两种不同的
蜘蛛
指定不同的进程设置?
python-3.x
、
web-scraping
、
scrapy
、
web-crawler
我有两个
蜘蛛
,我想并行执行它,。我使用CrawlerProcess实例及其crawl方法来解决这个问题。但是,我希望为同一进程中的每个
蜘蛛
指定不同的输出文件,即FEED_URI 。我试图循环
蜘蛛
并运行它们,如下所示。虽然生成了两个不同的输出文件,但进程在第二个
蜘蛛
完成执行后立即终止。如果第一个
蜘蛛
在第二个
蜘蛛
之前完成爬行,我将得到所需的输出。但是,如果第二个
蜘蛛
先完成爬行,那么它就不会等待第一个
蜘蛛
完成。我怎么才能解决这个问题呢?from
sc
浏览 1
提问于2020-06-18
得票数 1
1
回答
运行
蜘蛛
:错误:找不到文件:-刮伤
python
、
scrapy
start_urls = [] 2016-05-25 20:26:42 [
scrapy
] INFO:
Scrapy
1.1.0 started (bot: tutorial) 2016-05-2520:26:42 [
scra
浏览 4
提问于2016-05-26
得票数 5
回答已采纳
1
回答
快速检查刮伤行为/ bug的最简单方法是什么?
python
、
scrapy
我有时尝试,但通常不测试我的想法,因为我不知道如何快速做到这一点,而不设置一个完整的
Scrapy
项目和解析一个真正的网页。用脱机示例文件检查问题/解决方案的最快方法是什么,而不必创建一个全新的
scrapy
项目?
浏览 0
提问于2014-12-04
得票数 3
回答已采纳
1
回答
剪贴的优点是什么?
scrapy
、
scrapyd
刮伤的医生说: 在使用上有什么优势吗?
浏览 0
提问于2013-04-16
得票数 11
回答已采纳
1
回答
为什么刮伤提供无法加载错误?
python
、
scrapy
、
web-crawler
因为当我试图运行这个错误时: 所以我的预期结果应该是这样的。我是python和
scrapy
的新手,对代码的任何提示或改进都很感激。我想通过抓取和python保持“解决方案”,因为这些是我正在努力学习的atm。from
scrapy
.linkextractors import LinkExtractor from
scrapy
.spiders import C
浏览 1
提问于2021-03-17
得票数 0
1
回答
刮刀、爬行器和
蜘蛛
在抓取中的区别
web-crawler
、
scrapy
、
scrapy-spider
试着阅读
Scrapy
的代码。“替罪羊”、“爬虫”和“
蜘蛛
”这几个词令人困惑。例如
scrapy
.crawler有人能在
Scrapy
的背景下解释这些术语的含义和差异吗?提前谢谢。
浏览 3
提问于2015-12-14
得票数 11
回答已采纳
1
回答
如何将运行
scrapy
的默认设置设置为python脚本?
python
、
python-2.7
、
scrapy
、
scrapy-spider
我对以下建议有一些意见: from
scrapy
.crawler import CrawlerProcess from
scrapy</e
浏览 4
提问于2016-11-18
得票数 1
回答已采纳
23
回答
刮擦
蜘蛛
找不到错误
python
、
scrapy
这是Windows 7和python 2.7我的
蜘蛛
位于caps\caps\spiders\campSpider.py我加入了这个项目,然后尝试运行我犯了一个错误,就是找不到
蜘蛛
。spider = self.crawler.spiders.create(spname, **opts.spargs) File "c:\Python27\l
浏览 6
提问于2012-03-26
得票数 43
回答已采纳
1
回答
刮痕爬行器
python
、
python-3.x
、
web-scraping
、
scrapy
、
scrapy-spider
"Items.py“文件包含: passimport
scrapy
allowed_domains = ["craigslist.org
浏览 2
提问于2017-09-20
得票数 0
回答已采纳
3
回答
蜘蛛
未找到,关键问题
python-3.x
、
web-scraping
、
scrapy
我已经用
Scrapy
做了一个工作项目,但是,它有点混乱,所以我决定做一个更完美的新项目。KeyError: 'Spider not found: generic_spider'Traceback> File "C:\Users\Manuel\Anaconda3\lib\site-pa
浏览 3
提问于2019-01-03
得票数 1
回答已采纳
3
回答
刮伤
蜘蛛
找不到
python
、
scrapy
我试着复制这段谈话的代码:
scrapy
crawl talkspider_basicraise KeyError("Spider not found:{}".format(spider_name))
蜘蛛
的代码是:from
scrapy
.select
浏览 0
提问于2016-07-28
得票数 1
1
回答
如何在
Scrapy
/Zyte中将新的
蜘蛛
arg添加到我自己的模板中
scrapy
、
command-line-arguments
、
zyte
我正在研究付费代理
蜘蛛
模板,并希望能够在
Scrapy
爬虫的命令行上传递一个新的参数。我怎么能这么做?
浏览 5
提问于2022-04-13
得票数 -1
回答已采纳
1
回答
运行
scrapy
爬行dmoz时出错。
python
、
scrapy
d:\
Scrapy
workspace\tutorial>
scrapy
crawl dmoz, line 143, in executeFile "C:\Pyth
浏览 2
提问于2013-08-29
得票数 1
1
回答
请向“抓取爬行”命令解释第一个参数
python
、
scrapy
在中,我们看到正在运行的项目命令crawl:我想知道quotes的论点,因为
蜘蛛
被命名为quotes_spider.py。
浏览 1
提问于2020-05-09
得票数 0
回答已采纳
1
回答
抓取CrawlSpider -只有在第一个URL完成后才开始在下一个URL上爬行
python
、
scrapy
、
web-crawler
我有一只
蜘蛛
,它看起来像这样 name = 'grablink' allowed_domains = ['www.yellowpages.com我知道这是正常的
Scrapy
行为,因为它是异步的,但是我还是可以这样做的,所以首先从yellowpages.com提取所有链接,然后从sports.yahoo.com提取链接等等。
浏览 1
提问于2016-01-03
得票数 2
1
回答
用Anaconda运行抓取
蜘蛛
python-2.7
、
scrapy
、
anaconda
、
scrapy-spider
你好,我正在努力完成在以下网站上找到的教程: 文件"//anaconda/lib/python2.7/site-packages/
scrapy
/spiderloader.py",第43行,在load KeyError(“
蜘蛛
未找到:{}".format(spider_name)) KeyEr
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
1
回答
重新抓取一台机器已经爬行的url
python
、
scrapy
、
web-crawler
、
distributed
我使用
scrapy
-redis.编写了一个分布式
蜘蛛
SCHEDULER = "
scrapy
_redis.scheduler.Scheduler"SCHEDULER_QUEUE_CLASS = '
scrapy
_redis.queue.SpiderPriorityQueue' 然而,在爬行所有UR
浏览 1
提问于2016-08-23
得票数 0
回答已采纳
2
回答
使用
Scrapy
用单个
蜘蛛
抓取多个网站
python
、
python-2.7
、
web-scraping
、
scrapy
、
scrapy-spider
我正在使用
Scrapy
从中刮取数据。下面是
蜘蛛
的代码。class StackItem(
scrapy
.Item): if key not in self.fields:self.fields[key] =
scrapy
.Field() 事实上,被废弃的网站列表是无
浏览 3
提问于2015-08-25
得票数 2
1
回答
Scrapy
:从python脚本中运行一个
蜘蛛
,并等待其执行结束。
python
、
django
、
scrapy
、
scrapy-spider
我创建了一个具有以下结构的小型
Scrapy
项目: ├──
scrapy
.cfg ├── __init__.py └── spiders └── __init__.py
scrapy
crawl products_spider 现在,
浏览 4
提问于2017-05-11
得票数 2
3
回答
刮擦日志问题
python
、
python-2.7
、
scrapy
、
scrapyd
我在一个项目中有多个
蜘蛛
,问题是现在我正在定义LOG_FILE,设置如下我想要的是
scrapy
_SPIDERNAME_DATETIME但我无法在log_file名称中提供
蜘蛛
名。我发现并在每个
蜘蛛
init方法中调用它,但它不起作用。
浏览 4
提问于2012-08-21
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy(一)scrapy 安装问题
Python Scrapy 爬虫(二):scrapy 初试
Scrapy框架的使用之Scrapy入门
爬虫你可能都会用,但是背后的架构你真的懂了吗?
python爬虫系列(三)scrapy基本概念
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券