使用Python和Scrapy进行递归爬行

文章/答案/技术大牛

发布

7回答

、、

我正在使用scrapy抓取一个网站。该网站每页有15个列表，然后有一个下一步按钮。我遇到了一个问题，在我完成对管道中所有列表的解析之前，我对下一个链接的请求被调用。下面是我的爬行器的代码： name = 'mysite.com' allowed_domains = ['mysite.com'就像我之前说的，它们在爬虫爬行当前页面之前就被执行了。在网站的每个页面上，这导致我的15个列表中只有3个被发送到管道。

浏览 0提问于2011-03-08得票数 12

3回答

在Scrapy中，如何设置每个url的时间限制？

、

我正在尝试抓取多个网站使用Scrapy链接提取器，并遵循为真(递归)。寻找一个解决方案，以设置时间限制爬行为每个网址在start_urls列表。谢谢 title = scrapy.Field() class DmozSpider(scra

浏览 39提问于2016-07-28得票数 1

1回答

用Anaconda运行抓取蜘蛛

、、、

你好，我正在努力完成在以下网站上找到的教程：文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py"，第43行，在load KeyError(“蜘蛛未找到：{}".format(spider_name

浏览 5提问于2016-10-06得票数 2

回答已采纳

5回答

如何在scrapy* spider中传递用户定义的参数*

、、

我试图将用户定义的参数传递给scrapy的爬行器。有谁能建议一下如何做到这一点吗？我在某处读到过一个参数-a，但不知道如何使用它。

浏览 7提问于2013-03-25得票数 121

回答已采纳

1回答

Perl web爬行框架

、、、

多年来，我一直在使用Perl为各种不同的目的进行爬行和抓取，有一件事一直困扰着我，那就是当有大量用于小规模抓取和爬行的伟大的CPAN模块时，例如LWP，WWW::Mechanize，Web：：刮刀，AnyEvent::HTTP，现在Mojo::UserAgent，似乎没有任何爬行框架与其他语言的爬行框架相同。例如，Apache (/Droids) & Scrapy (Python)。有人知道Per

浏览 4提问于2013-10-24得票数 3

回答已采纳

2回答

NameError: python中没有定义名称“规则”

、、

我有下面的脚本来递归地爬行一个网站：import scrapyfrom twisted.internet import reactorfrom scrapy.crawler import CrawlerRunner name = "dmoz

浏览 2提问于2016-01-22得票数 2

回答已采纳

1回答

ScrapyRT vs Scrapyd

、、、

到目前为止，我们使用已经有一段时间了。它为一个scrapy项目提供了一个很好的包装器，并且它的爬行器可以通过HTTP API控制爬行器：Scrapy 服务器，它提供了用于调度

浏览 120提问于2016-05-18得票数 26

回答已采纳

1回答

我的项目目录中的"scrapy* list“命令启动了一个爬行器*

、、、

我在命令行中创建了一个scrapy项目，并添加了两个爬行器myspider1和myspider2。每当我运行"scrapy crawl myspider1“或""scrapy crawl myspider2”“时，它都会启动"myspider1”。当我运行"scrapy list“时，它也会启动myspider1 我在python的vertualenv下运行它，但我不明白它为什么要这样做。似乎每当我使用

浏览 2提问于2016-02-09得票数 1

2回答

使用cronjob运行杂乱无章但不符合预期的结果

、、

我正在使用cron作业来安排我的抓取程序每隔12小时运行一次。我已经创建了一个爬虫，它抓取数据并使用FEED_FORMAT将其存储在csv文件中。这是我的shell文件的内容 #!bin/bash PATH=$PATH:/usr/local/bin/scrapyscrapy crawl abc_spider 现在，使用cronjob -e，我计划每分钟运行

浏览 28提问于2020-03-26得票数 0

1回答

从脚本scrapy开始

、、

向您展示如何从scrapy运行脚本，scrapy位于项目的根目录中，如果spider文件夹位于其他位置。这两本手册我都看不懂，或者只有关于启动脚本爬虫的描述。

浏览 0提问于2016-11-14得票数 0

3回答

运行Scrapy* Crawler*

、

我是Python和Scrapy的新手，我用PyCharm编写了一个爬虫，如下所示：from scrapy.spiders import Spiderimport re title = scrapy.Field() class MySpider

浏览 1提问于2017-02-12得票数 1

5回答

如何使用py文件运行scrapy

、

嗨，我在scrapy上工作，我用scrapy startproject example创建了一个scrapy文件夹，并编写了爬行器来抓取url中的所有数据，我已经使用scrapy crawl spider_name命令运行了爬行器，它工作得很好，能够提取数据。但是我有一个要求，我需要用创建的单个爬虫文件运行scrapy，我的意思是单个py文件，类似于 python -u /path/to/spider_f

浏览 1提问于2012-09-29得票数 8

回答已采纳

1回答

Python Scrapy tutorial KeyError：‘找不到爬虫：

、

/hacks/prosum-scraper/scrapy/home/tim/.virtualenvs/proscraper/lib/python2.7/site-packages/home/tim/.virtualenvs/proscraper/lib/python2.7/site-packages/<

浏览 2提问于2014-10-14得票数 6

回答已采纳

1回答

递归Scrapy爬行问题

、、、、

我正在尝试做一个递归蜘蛛来从一个有特定链接结构的站点(例如: web.com)中提取内容。例如：我已经将链接结构翻译成正则表达式：'\d+?qid=\d+.Python-Scrapy代码如下，然而，在我运行爬行器之后，爬行器没有提取任何东西：from <em

浏览 0提问于2014-06-22得票数 2

1回答

在python中没有正确编码的scrapy数据

、

我正在使用scrapy通过python进行web爬行。在抓取时，我有一些字符没有正确编码，如'\xa0'，'\x0259‘。有什么帮助吗?我该如何在python中处理它们？

浏览 2提问于2013-07-18得票数 0

1回答

如何让scrapy输出信息在debian中显示出和windows中一样的cjk外观？

、、、

4.3.2.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 18.9.0, Python 3.7.2 (tags1.20.0, Twisted 16.6.0, Python 2.7.13 (default, Sep 26 2018, 18:42:22) - [GCC 6.3.0 20170516], pyOpenSSL在我的debian中有两个python版本。/usr/local/lib/pytho

浏览 17提问于2019-04-25得票数 4

回答已采纳

1回答

如何获得Python* Scrapy Crawler的详细信息？*

、、

我正在使用Python工具从网站中提取数据。我正在使用proc_open()从我的php代码中触发Scrapy。现在我需要维护仪表盘之类的东西。在Scrapy中有什么方法可以获得Crawler的详细信息，比如：同时运行的爬行者列表。

浏览 1提问于2013-10-08得票数 3

回答已采纳

1回答

刮擦蜘蛛误差处理

、、

我刚开始在python上编程和使用scrapy。我正在爬行一个网页，然后将集合保存到mongoDB。我正面临一个错误的网页爬行。我曾经在这个网站上使用过类似的帮助页面，甚至从头到尾都遵循了一个教程，任何帮助都将受到感谢。your item here like:pagetitle = Field()pass from scrapyStackSpi

浏览 1提问于2016-11-20得票数 0

1回答

如何构建一个独立的Scrapy* Spider？*

、、

在爬行器示例(下面的代码)中，我如何使用"pyinstaller“(或其他安装程序)来构建可执行文件(如myspidy.exe)，以便最终用户不需要在windows环境中安装scrapy和python？安装了Python和Scrapy之后，可以通过执行命令"scrapy crawl quotes“来运行爬行器。最终用户会在没有预装Python和Scrap

浏览 0提问于2018-05-16得票数 1

5回答

在本地运行Scrapy中的所有爬行器

、、

有没有办法在不使用Scrapy守护进程的情况下运行Scrapy项目中的所有爬行器？过去有一种方法可以用scrapy crawl运行多个爬行器，但这种语法被删除了，Scrapy的代码也发生了很大的变化。我尝试创建自己的命令：from scrapy.utils.misc import load_object from scrapy.con

浏览 0提问于2013-03-22得票数 17

回答已采纳

点击加载更多