腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
:
运行
一个
爬行
器
,
然后
使用
收集
的
信息
运行
另一个
爬行
器
python-3.x
、
scrapy
在
Scrapy
文档中,他们给出
的
运行
多个
爬行
器
的
示例如下所示: process = CrawlerProcess()process.crawl(MySpider2)pass_d
浏览 26
提问于2019-06-18
得票数 0
回答已采纳
3
回答
如何在
Scrapy
中
的
同一进程中
运行
多个
爬行
器
python
、
python-2.7
、
scrapy
我是Python &
Scrapy
的
初学者。我刚刚创建了
一个
带有多个爬虫
的
Scrapy
项目,在
运行
"
scrapy
crawl ..“它只
运行
第
一个
爬虫。提前谢谢。
浏览 0
提问于2014-04-11
得票数 2
1
回答
如何从
另一个
抓取蜘蛛开始
python
、
scrapy
、
scrapy-spider
、
scrapy-splash
我在
一个
Scrapy
项目中有两个蜘蛛。Spider1
爬行
页面列表或整个网站并分析内容。Spider2
使用
Splash在谷歌上获取URL,并将该列表传递给Spider1。因此,无需Spider2调用即可
使用
Spider1对内容进行
爬行
和分析from
scrapy
.spiders import CrawlSpider import
scrapy
process.crawl('lexi', start_url
浏览 7
提问于2017-07-25
得票数 3
回答已采纳
1
回答
ScrapyRT vs Scrapyd
python
、
web-scraping
、
scrapy
、
scrapyd
到目前为止,我们
使用
已经有一段时间了。它为
一个
scrapy
项目提供了
一个
很好
的
包装
器
,并且它
的
爬行
器
可以通过HTTP API控制
爬行
器
: Scrapyd是
一个
用于
运行
Scrapy
爬行
器
的
服务。它允许您部署
Scrapy
项目并
使用
HTTP JSON API控制
浏览 120
提问于2016-05-18
得票数 26
回答已采纳
1
回答
刮刀、
爬行
器
和蜘蛛在抓取中
的
区别
web-crawler
、
scrapy
、
scrapy-spider
试着阅读
Scrapy
的
代码。“替罪羊”、“爬虫”和“蜘蛛”这几个词令人困惑。例如
scrapy
.crawler有人能在
Scrapy
的
背景下解释这些术语
的
含义和差异吗?提前谢谢。
浏览 3
提问于2015-12-14
得票数 11
回答已采纳
1
回答
用Anaconda
运行
抓取蜘蛛
python-2.7
、
scrapy
、
anaconda
、
scrapy-spider
你好,我正在努力完成在以下网站上找到
的
教程: 文件"//anaconda/lib/python2.7/site-packages/
scrapy
/spiderloader.py",第43行,在load KeyError(“蜘蛛未找到
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
1
回答
从单独
的
脚本
运行
Scrapy
-o JSON
python
、
json
、
python-3.x
、
scrapy
我有
一个
python3脚本,我在其中调用了2个抓取
爬行
器
,以便在代码中
的
某个时刻输出
一个
JSON文件。目前,我通过
运行
如下所示
的
bat脚本来做到这一点:Bat脚本:
scrapy
cr
浏览 20
提问于2020-07-30
得票数 1
回答已采纳
2
回答
Python
Scrapy
-如何同时从2个不同
的
网站抓取?
python
、
scrapy
我需要从Excel中给出
的
域列表中抓取数据;问题是我需要从原始网站(让我们举个例子:)和从similartech ()抓取数据。我希望它们同时被抓取,这样我就可以接收它们,并在最后格式化它们一次,之后我将直接转到下
一个
域。 理论上,我应该在
scrapy
中以异步方式
使用
2个
爬行
器
?
浏览 2
提问于2020-02-10
得票数 1
1
回答
构建用于抓取和可视化数据
的
管道
python
、
scrapy
、
scrapy-pipeline
我有
一个
Scrapy
爬虫,它从网站上获取所有必要
的
数据,并将其存储在数据库中。我通常用"
scrapy
runspider“来
运行
它。当数据被存储时,我想要显示它-为此,我手动启动了
一个
Flask服务
器
,并将数据可视化为图形,
然后
从数据库中提取出来。1)每天自动
运行
爬虫。为此,我想,我应该将其部署到web服务
器
上。但是什么服务
器
以及如何获取
收集</
浏览 1
提问于2018-04-03
得票数 0
2
回答
使用
Google Cloud Functions时
的
ReactorNotRestartable与
scrapy
python
、
google-cloud-platform
、
scrapy
、
google-cloud-functions
从this one等StackOverflow上
的
其他帖子中,我了解到这是因为无法重新启动反应堆,特别是在执行循环时。 解决这个问题
的
方法是将start()放在for循环之外。然而,对于云函数,这是不可能
的
,因为每个请求在技术上都应该是独立
的
。 CrawlerProcess是否以某种方式与云函数一起缓存?如果是这样,我们如何才能消除这种行为。例如,我尝试将导入和初始化过程放在函数内部,而不是外部,以防止导入缓存,但这不起作用: # main.py
浏览 24
提问于2020-04-07
得票数 3
回答已采纳
1
回答
Python包含自定义模块
python
、
module
、
scrapy
、
scrapy-spider
制作
一个
基本
的
python
爬行
器
...不知道如何将我制作
的
一个
模块包含到
另一个
模块中。获取:“没有模块错误”。文件结构如下: Indeed_spider.py代码:from
scrapy
.selector import HtmlXPathSelectorfrom
scrapy
.loader import XPathItemLoader
浏览 13
提问于2016-09-02
得票数 2
1
回答
如何停止
Scrapy
编译
Scrapy
项目中
的
所有python文件
python
、
csv
、
scrapy
对于
一个
scrapy
项目,我开发了多个
爬行
器
,并将它们存储在同
一个
爬行
器
文件夹中。我
使用
以下命令通过cmd
运行
所有的抓取
器
:
scrapy
crawl spidername 然而,我注意到它遵守了项目或文件夹中
的
所有爬虫,尽管它们存储在不同
的
python文件中,具有不同
的
文件名,不同
的
爬行
器
名
浏览 0
提问于2015-01-12
得票数 0
1
回答
抓取限制
爬行
的
URL
regex
、
scrapy
我正在
爬行
Erowid,并试图从网站
收集
数据。我编码
的
蜘蛛from
scrapy
.spiders import CrawlSpider, Rule ] pass 问题是
浏览 4
提问于2015-08-18
得票数 1
回答已采纳
1
回答
Scrapy
:与二级网站互动时
的
程序组织
python
、
scrapy
我正在
使用
Scrapy
1.1,我有
一个
项目,我有
一个
爬虫'1‘抓取站点A(在那里我获得了90%
的
信息
来填充我
的
项目)。然而,根据站点A抓取
的
结果,我可能需要从站点B抓取额外
的
信息
。我更喜欢后者,认为它解耦了2个站点
的
抓取,但我不确定这是否可能,或者是处理这种用例
的
最佳方式。另一种方法可能是对站点B
使用
第二个
爬行
器
(<
浏览 16
提问于2017-02-27
得票数 0
回答已采纳
5
回答
如何
使用
py文件
运行
scrapy
python
、
scrapy
嗨,我在
scrapy
上工作,我用
scrapy
startproject example创建了
一个
scrapy
文件夹,并编写了
爬行
器
来抓取url中
的
所有数据,我已经
使用
scrapy
crawl spider_name命令
运行
了
爬行
器
,它工作得很好,能够提取数据。但是我有
一个
要求,我需要用创建
的
单个爬虫文件
运行
scrapy<
浏览 1
提问于2012-09-29
得票数 8
回答已采纳
1
回答
scrapy
xpath选择
器
问题
python-2.7
、
xpath
、
scrapy-spider
、
scrapy-shell
我设法
使用
调试
爬行
器
找到了要隔离
的
属性,但我不确定是否正确地将其合并到我
的
爬行
器
中。当
爬行
器
运行
时,我没有得到明确
的
错误
信息
,所以我想我只是间接地输入了选择
器
。我正在
爬行
的
网站是"“,我在调试
爬行
器
中输入
的
路径命令是"response.xpath(
浏览 2
提问于2015-12-07
得票数 0
3
回答
将抓取
的
URL从
一个
爬虫传递到
另一个
爬虫
python
、
xml
、
web-scraping
、
scrapy
如何将抓取
的
网址从
一个
爬行
器
发送到
另一个
爬行
器
的
start_urls? class Daily(SitemapSpid
浏览 30
提问于2017-02-23
得票数 2
1
回答
我
的
项目目录中
的
"
scrapy
list“命令启动了
一个
爬行
器
python
、
python-2.7
、
web-scraping
、
scrapy
我在命令行中创建了
一个
scrapy
项目,并添加了两个
爬行
器
myspider1和myspider2。每当我
运行
"
scrapy
crawl myspider1“或""
scrapy
crawl myspider2”“时,它都会启动"myspider1”。当我
运行
"
scrapy
list“时,它也会启动myspider1 我在python
的
vertualenv下
运行<
浏览 2
提问于2016-02-09
得票数 1
3
回答
运行
Scrapy
Crawler
python
、
scrapy
我是Python和
Scrapy
的
新手,我用PyCharm编写了
一个
爬虫,如下所示:from
scrapy
.spiders import Spiderimport re title =
scrapy
.Field() item = TutsplusIt
浏览 1
提问于2017-02-12
得票数 1
1
回答
Scrapy
:所有的刮板都失败了。包含语法错误
的
爬行
器
python
、
web-scraping
、
scrapy
、
syntax-error
有时我得到失败
的
所有刮刀时,在
一个
刮刀存在一些错误。例如:我有语法错误
的
刮板,这是遗漏
的
。self response): print url 在此
爬行
器
中但是如果
运行
另一个
没有语法错误
的
爬行
器
(
爬行
器</em
浏览 2
提问于2018-01-12
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python爬虫系列开发scrapy掌握(一)
七款必备的Python爬虫库,你知道几个?
工具06—介绍爬虫软件工具gooseeker
代理IP怎样保障Python稳定运行?
scrapy官方文档提供的常见使用问题
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券