腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
7
回答
使用
Python
和
Scrapy
进行
递归
爬行
、
、
我正在
使用
scrapy
抓取一个网站。该网站每页有15个列表,然后有一个下一步按钮。我遇到了一个问题,在我完成对管道中所有列表的解析之前,我对下一个链接的请求被调用。下面是我的
爬行
器的代码: name = 'mysite.com' allowed_domains = ['mysite.com'就像我之前说的,它们在爬虫
爬行
当前页面之前就被执行了。在网站的每个页面上,这导致我的15个列表中只有3个被发送到管道。
浏览 0
提问于2011-03-08
得票数 12
3
回答
在
Scrapy
中,如何设置每个url的时间限制?
、
我正在尝试抓取多个网站
使用
Scrapy
链接提取器,并遵循为真(
递归
)。寻找一个解决方案,以设置时间限制
爬行
为每个网址在start_urls列表。谢谢 title =
scrapy
.Field() class DmozSpider(
scra
浏览 39
提问于2016-07-28
得票数 1
1
回答
用Anaconda运行抓取蜘蛛
、
、
、
你好,我正在努力完成在以下网站上找到的教程: 文件"//anaconda/lib/
python
2.7/site-packages/
scrapy
/spiderloader.py",第43行,在load KeyError(“蜘蛛未找到:{}".format(spider_name
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
5
回答
如何在
scrapy
spider中传递用户定义的参数
、
、
我试图将用户定义的参数传递给
scrapy
的
爬行
器。有谁能建议一下如何做到这一点吗? 我在某处读到过一个参数-a,但不知道如何
使用
它。
浏览 7
提问于2013-03-25
得票数 121
回答已采纳
1
回答
Perl web
爬行
框架
、
、
、
多年来,我一直在
使用
Perl为各种不同的目的
进行
爬行
和
抓取,有一件事一直困扰着我,那就是当有大量用于小规模抓取
和
爬行
的伟大的CPAN模块时,例如LWP,WWW::Mechanize,Web::刮刀,AnyEvent::HTTP,现在Mojo::UserAgent,似乎没有任何
爬行
框架与其他语言的
爬行
框架相同。例如,Apache (/Droids) &
Scrapy
(
Python
)。 有人知道Per
浏览 4
提问于2013-10-24
得票数 3
回答已采纳
2
回答
NameError:
python
中没有定义名称“规则”
、
、
我有下面的脚本来
递归
地
爬行
一个网站:import
scrapy
from twisted.internet import reactorfrom
scrapy
.crawler import CrawlerRunner name = "dmoz
浏览 2
提问于2016-01-22
得票数 2
回答已采纳
1
回答
ScrapyRT vs Scrapyd
、
、
、
到目前为止,我们
使用
已经有一段时间了。它为一个
scrapy
项目提供了一个很好的包装器,并且它的
爬行
器可以通过HTTP API控制
爬行
器:
Scrapy
服务器,它提供了用于调度
浏览 120
提问于2016-05-18
得票数 26
回答已采纳
1
回答
我的项目目录中的"
scrapy
list“命令启动了一个
爬行
器
、
、
、
我在命令行中创建了一个
scrapy
项目,并添加了两个
爬行
器myspider1
和
myspider2。每当我运行"
scrapy
crawl myspider1“或""
scrapy
crawl myspider2”“时,它都会启动"myspider1”。当我运行"
scrapy
list“时,它也会启动myspider1 我在
python
的vertualenv下运行它,但我不明白它为什么要这样做。似乎每当我
使用
浏览 2
提问于2016-02-09
得票数 1
2
回答
使用
cronjob运行杂乱无章但不符合预期的结果
、
、
我正在
使用
cron作业来安排我的抓取程序每隔12小时运行一次。 我已经创建了一个爬虫,它抓取数据并
使用
FEED_FORMAT将其存储在csv文件中。 这是我的shell文件的内容 #!bin/bash PATH=$PATH:/usr/local/bin/
scrapy
scrapy
crawl abc_spider 现在,
使用
cronjob -e,我计划每分钟运行
浏览 28
提问于2020-03-26
得票数 0
1
回答
从脚本
scrapy
开始
、
、
向您展示如何从
scrapy
运行脚本,
scrapy
位于项目的根目录中,如果spider文件夹位于其他位置。这两本手册我都看不懂,或者只有关于启动脚本爬虫的描述。
浏览 0
提问于2016-11-14
得票数 0
3
回答
运行
Scrapy
Crawler
、
我是
Python
和
Scrapy
的新手,我用PyCharm编写了一个爬虫,如下所示:from
scrapy
.spiders import Spiderimport re title =
scrapy
.Field() class MySpider
浏览 1
提问于2017-02-12
得票数 1
5
回答
如何
使用
py文件运行
scrapy
、
嗨,我在
scrapy
上工作,我用
scrapy
startproject example创建了一个
scrapy
文件夹,并编写了
爬行
器来抓取url中的所有数据,我已经
使用
scrapy
crawl spider_name命令运行了
爬行
器,它工作得很好,能够提取数据。但是我有一个要求,我需要用创建的单个爬虫文件运行
scrapy
,我的意思是单个py文件,类似于
python
-u /path/to/spider_f
浏览 1
提问于2012-09-29
得票数 8
回答已采纳
1
回答
Python
Scrapy
tutorial KeyError:‘找不到爬虫:
、
/hacks/prosum-scraper/
scrapy
/home/tim/.virtualenvs/proscraper/lib/
python
2.7/site-packages/home/tim/.virtualenvs/proscraper/lib/
python
2.7/site-packages/<
浏览 2
提问于2014-10-14
得票数 6
回答已采纳
1
回答
递归
Scrapy
爬行
问题
、
、
、
、
我正在尝试做一个
递归
蜘蛛来从一个有特定链接结构的站点(例如: web.com)中提取内容。例如: 我已经将链接结构翻译成正则表达式:'\d+?qid=\d+.
Python
-
Scrapy
代码如下,然而,在我运行
爬行
器之后,
爬行
器没有提取任何东西:from <em
浏览 0
提问于2014-06-22
得票数 2
1
回答
在
python
中没有正确编码的
scrapy
数据
、
我正在
使用
scrapy
通过
python
进行
web
爬行
。在抓取时,我有一些字符没有正确编码,如'\xa0','\x0259‘。有什么帮助吗?我该如何在
python
中处理它们?
浏览 2
提问于2013-07-18
得票数 0
1
回答
如何让
scrapy
输出信息在debian中显示出
和
windows中一样的cjk外观?
、
、
、
4.3.2.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 18.9.0,
Python
3.7.2 (tags1.20.0, Twisted 16.6.0,
Python
2.7.13 (default, Sep 26 2018, 18:42:22) - [GCC 6.3.0 20170516], pyOpenSSL在我的debian中有两个
python
版本。/usr/local/lib/
pytho
浏览 17
提问于2019-04-25
得票数 4
回答已采纳
1
回答
如何获得
Python
Scrapy
Crawler的详细信息?
、
、
我正在
使用
Python
工具从网站中提取数据。我正在
使用
proc_open()从我的php代码中触发
Scrapy
。现在我需要维护仪表盘之类的东西。在
Scrapy
中有什么方法可以获得Crawler的详细信息,比如: 同时运行的
爬行
者列表。
浏览 1
提问于2013-10-08
得票数 3
回答已采纳
1
回答
刮擦蜘蛛误差处理
、
、
我刚开始在
python
上编程
和
使用
scrapy
。我正在
爬行
一个网页,然后将集合保存到mongoDB。我正面临一个错误的网页
爬行
。我曾经在这个网站上
使用
过类似的帮助页面,甚至从头到尾都遵循了一个教程,任何帮助都将受到感谢。your item here like:pagetitle = Field()pass from
scrapy
StackSpi
浏览 1
提问于2016-11-20
得票数 0
1
回答
如何构建一个独立的
Scrapy
Spider?
、
、
在
爬行
器示例(下面的代码)中,我如何
使用
"pyinstaller“(或其他安装程序)来构建可执行文件(如myspidy.exe),以便最终用户不需要在windows环境中安装
scrapy
和
python
?安装了
Python
和
Scrapy
之后,可以通过执行命令"
scrapy
crawl quotes“来运行
爬行
器。最终用户会在没有预装
Python
和
Scrap
浏览 0
提问于2018-05-16
得票数 1
5
回答
在本地运行
Scrapy
中的所有
爬行
器
、
、
有没有办法在不
使用
Scrapy
守护进程的情况下运行
Scrapy
项目中的所有
爬行
器?过去有一种方法可以用
scrapy
crawl运行多个
爬行
器,但这种语法被删除了,
Scrapy
的代码也发生了很大的变化。我尝试创建自己的命令:from
scrapy
.utils.misc import load_object from
scrapy
.con
浏览 0
提问于2013-03-22
得票数 17
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券