腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
一个
python
脚本
中
运行
不同
的
scrapy
项目
python
、
scrapy
、
web-crawler
我是
Scrapy
的
新手,在同一个
脚本
中
调用
多个爬虫项目时遇到了一些困难。我有三个抓取项目,分别抓取
不同
的
网页,并将数据存储到SQLite
中
。但是我不知道如何使用一个
Python
脚本
来管理这些项目。以下是我尝试过
的
内容: 1.我在官方文档中看到使用了CrawlerProcess,但是这段代码不能通过管道将数据存储到SQLite
中
。示例代码如下: import
scrapy</
浏览 3
提问于2016-04-21
得票数 0
1
回答
从当前
脚本
中
添加擦伤中间件
python
、
scrapy
、
web-crawler
我已经在一个
python
脚本
中
安装了我
的
抓取爬虫:import csvfrom
scrapy
.http import FormRequest test =
scrapy
.Field() class
Spider
(<e
浏览 1
提问于2016-03-04
得票数 2
回答已采纳
1
回答
在运行时环境(
如
cgi、wsgi )
中
调用
scrapy
scrapy
我想模拟 是否有给我提供HtmlXPathSelector (hxs)对象
的
url
的
刮伤实用程序?
浏览 5
提问于2013-06-24
得票数 1
2
回答
从
Python
脚本
中
运行
scrapy
- CSV导出程序不起作用
python
、
python-2.7
、
export
、
twisted
、
scrapy
当我从命令行运行它时,我
的
刮取器工作得很好,但是当我试图在
python
脚本
中
运行它(使用使用Twisted
的
方法概述 )时,它不会输出它通常所做
的
两个CSV文件。我有一个创建和填充这些文件
的
管道,其中一个使用CsvItemExporter(),另一个使用writeCsvFile()。命令行末尾
的
输出表明,预期
的
页面数已被爬行,并且爬行器似乎已经正常完成。我没有收到任何错误信息。将打印语句和语法错误插入管道没有任何影响,因
浏览 3
提问于2013-07-20
得票数 6
回答已采纳
1
回答
如
何在
不同
的
Python
脚本
中
调用
Scrapy
Spider
python
、
python-3.x
、
pandas
、
web-scraping
、
scrapy
我正在做一个项目,我需要在一个
不同
的
python
文件
中
调用
我
的
Scrapy
Spider
,以便在处理之前更新之前抓取
的
数据。我不知道该如何做到这一点。我还在学习
scrapy
,所以如果你能确切地解释我应该做什么,那就太好了。 我
的
文件结构如下: ? 这里
的
calculator.py是我要
调用
爬行器
的
外部文件。spidey.py如下所示: i
浏览 43
提问于2020-12-17
得票数 0
回答已采纳
1
回答
Scrapy
with Splash:没有名为
scrapy
_splash
的
模块
python
、
scrapy
、
splash-screen
我正在学习如
何在
scrapy
中使用splash。我正在做这个教程:。$
scrapy
crawl
spider
1DOWNLOADER_MIDDLEWARES = {'
scrapy
_splash.SplashMiddl
浏览 19
提问于2017-01-11
得票数 0
1
回答
-第一个任务后
的
“流程完成”,不会运行以下作业。
python
、
scrapy
、
scheduled-tasks
、
scheduler
、
scrapy-spider
我使用
Python
()实现了一个网络爬虫。现在我想自动运行这些进程。我查看了模块Schedule (,),并编写了以下代码:import timefrom scrapers.
scrapy</em
浏览 5
提问于2018-03-16
得票数 0
1
回答
如何将来自
不同
项目的蜘蛛与
python
脚本
中
不同
的
管道
调用
?
python
、
api
、
windows-7
、
scrapy
、
scrapyd
在
不同
的
REsale、REbuy和RErent项目中,我有三个
不同
的
蜘蛛,每个蜘蛛都有自己
的
管道,将它们
的
输出定向到服务器上
的
各种MySQL表。当使用
scrapy
crawl
调用
时,它们都运行正常。最终,我想要一个
脚本
,它可以作为一个服务运行在我
的
windows 7机器上,它可以以
不同
的
时间间隔运行蜘蛛。自动取款机,我卡在擦伤
的
API上了。我甚至
浏览 3
提问于2013-11-10
得票数 0
回答已采纳
1
回答
如何让
Scrapy
在
python
项目中爬行?
python
、
scrapy
我想在这个url上保存信息,我按照
Scrapy
教程学习了如何使用这个工具。但是,有没有一种方法可以在MyScrapClass.crawl()这样
的
Python
项目中启动爬行,而不是使用linux命令
scrapy
crawl MyScrapProject?
浏览 1
提问于2016-03-21
得票数 0
4
回答
在刮刮
中
运行多个蜘蛛
python
、
scrapy
、
web-crawler
例如,如果我有两个包含
不同
的
,那么就可以使用
scrapy
中
的
。现在,我想写两个单独
的
蜘蛛各一个,并希望同时运行这两个蜘蛛。
浏览 8
提问于2012-06-08
得票数 8
回答已采纳
2
回答
从
python
脚本
调用
scrapy
而不是创建JSON输出文件
python
、
json
、
web-crawler
、
scrapy
下面是我用来
调用
scrapy
的
python
脚本
,答案是 reactor.stop()from
scrapy
import log,signals from
scrapy
.contrib.exporter import JsonItemExporterfrom
scrapy
.xlib.
浏览 4
提问于2013-03-19
得票数 3
1
回答
从项目目录外部运行
的
scrapy
引发异常
python
、
scrapy
我在下面的目录中有一个刮擦
的
项目“教程”项目目录结构如下所示。我想通过我
的
自定义
python
脚本
runspiders.py运行这个蜘蛛。
脚本
从
scrapy
项目文件夹内运行时,蜘蛛将正确运行。C:\wamp64\www\tutorial>
python
runspiders.py 但是当自定义
python
脚本
从项目文件夹外部运行时,
scrapy
会引
浏览 9
提问于2016-12-14
得票数 2
4
回答
从
脚本
中
抓取爬虫
python
、
python-2.7
、
scrapy
我想从
脚本
而不是scrap crawl运行爬行器有什么需要帮忙
的
吗?
浏览 1
提问于2014-02-10
得票数 23
5
回答
在
脚本
文件函数
中
获取
Scrapy
crawler输出/结果
python
、
scrapy
、
web-crawler
、
twisted
、
scrapy-spider
我使用
脚本
文件在
scrapy
项目中运行爬行器,并且爬行器记录爬虫
的
输出/结果。但是我想在
脚本
文件中使用爬行器输出/结果,在某些函数
中
,.I不想将输出/结果保存在任何文件或DB
中
。下面是从获取
的
脚本
代码from
scrapy
.crawler import CrawlerRunner from
scrapy
.util
浏览 3
提问于2016-10-25
得票数 12
5
回答
使用Visual Studio进行抓取调试
python
、
visual-studio-2012
、
scrapy
我是
Scrapy
和
Python
的
新手,我很喜欢它。 可以使用Visual Studio调试
scrapy
项目吗?如果可能,如何实现?
浏览 0
提问于2014-07-21
得票数 4
3
回答
抓取:爬行多个蜘蛛,共享相同
的
项、管道和设置,但具有
不同
的
输出。
python
、
web-scraping
、
scrapy
、
scrapy-spider
我试图使用
Python
脚本
运行多个蜘蛛,该
脚本
基于官方文档中提供
的
代码。我
的
scrapy
项目包含多重爬行器(
Spider
1、
Spider
2、 等),它爬行
不同
的
网站,并将每个网站
的
内容保存在
不同
的
JSON文件
中
(output1.json、output2.json等)。在
不同
网站上收集
的
项目具有相同
的</
浏览 2
提问于2017-07-25
得票数 3
回答已采纳
2
回答
对抓取爬行器
的
递归
调用
web-scraping
、
scrapy
如
何在
完成后重新启动相同
的
爬行器,以便它可以获取下一个要处理
的
urls列表。由于我
的
数据库太大,我不能一次通过所有的网站。有没有办法在蜘蛛处理完100个网站后
调用
它?请帮我解决这个问题,因为我对
scrapy
还不熟悉。或者,是否有任何选项可以安排爬行器在指定
的
时间间隔后运行?在当前代码
中
,我可以从域获取urls并将其存储在数据库
中
。但我需要一直运行蜘蛛。有没有办法只运行一次,它就会一直运行,直到没有网站可处理。请帮帮忙。
浏览 4
提问于2016-05-02
得票数 1
2
回答
Python
->使用刮伤蜘蛛作为函数
python
、
web-scraping
、
scrapy
所以我在spiders.py中有下面的抓取蜘蛛 name = "clips" yield { } 但关键
的
一点是,我希望将
浏览 11
提问于2022-01-27
得票数 0
回答已采纳
1
回答
Scrapy
:在没有爬虫
的
情况下以
脚本
方式发送帖子
python
、
scrapy
/usr/bin/env
python
3 print(failure) print(response) callback=callback, errback=errb
浏览 2
提问于2020-01-11
得票数 0
5
回答
在本地运行
Scrapy
中
的
所有爬行器
python
、
web-crawler
、
scrapy
有没有办法在不使用
Scrapy
守护进程
的
情况下运行
Scrapy
项目中
的
所有爬行器?过去有一种方法可以用
scrapy
crawl运行多个爬行器,但这种语法被删除了,
Scrapy
的
代码也发生了很大
的
变化。我尝试创建自己
的
命令:from
scrapy
.utils.misc import load_object from <
浏览 0
提问于2013-03-22
得票数 17
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券