使用CrawlSpider可以使用scrapy.Spider抓取单个页面，但不能抓取整个网站

当我通过(scrapy.Spider)抓取一个页面时，我的代码工作正常。然而，一旦我切换到(CrawlSpider)来抓取整个网站，它似乎根本不起作用。from scrapy.spiders import CrawlSpider, Rule name = &

浏览 12提问于2021-07-28得票数 0

回答已采纳

2回答

如何用Scrapy抓取整个网站？

、、

我无法抓取整个网站，Scrapy只能在表面抓取，我想抓取更深的部分。我已经用谷歌搜索了5-6个小时，但没有任何帮助。我的代码如下：from scrapy.contrib.linkextractors.sgmlimport SgmlLinkExtractorfrom scr

浏览 0提问于2013-03-19得票数 11

1回答

我正在尝试测试抓取网页的Scrapy，我不明白为什么我的爬虫只抓取一个页面，我尝试评论规则和allowed_domains都没有成功。我想我遗漏了一些愚蠢的东西如果能帮上忙我会很感激的。from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgmlimport SgmlLinkExtractor class N

浏览 3提问于2012-03-21得票数 1

回答已采纳

1回答

如何用Scrapy抓取网站所有页面上的链接

、、、

我正在学习刮伤，我试图提取所有包含"“(例如：http://lattes.cnpq.br/0281123427918302 )的链接，但我不知道网站上包含这些信息的页面是什么。例如，这个网站：我想要的链接在这个页面上：我能做什么？我试图使用规则，但我不知道如何正确地使用</

浏览 2提问于2015-06-01得票数 4

回答已采纳

1回答

如何在一个python脚本中调用2个Scrapy爬虫？

、

我正在使用Scrapy CrawlSpider类来抓取电子商务网站的分类页面。问题是，大约5%的请求在5次重试后被拒绝，并且不会达到100%的已知类别。我的解决方法涉及到第二个爬行器(scrapy.Spider)，它从数据库中获取丢失的已知URL，并简单地重新抓取它们。这样我就达到了100%的成绩。class myspider(CrawlSpider): ...yield it

浏览 1提问于2021-08-07得票数 1

1回答

Python Scrapy不爬行网站

、、、

我只能抓取第一个给定的网址，但我不能抓取超过一个网页的或整个网站的问题！我所做的例子很简单..。title = scrapy.Field()import scrapy

浏览 4提问于2016-05-19得票数 0

1回答

抓取抓取整个网站的爬虫

、、

我正在使用scrapy抓取我拥有的旧网站，我使用下面的代码作为我的蜘蛛。我不介意为每个网页输出文件，或者一个包含所有内容的数据库。但是我确实需要能够让蜘蛛抓取整个东西，而不是我必须放入我当前必须做的每个单独的url。import scrapy name = "dmoz" allowed_domains = ["www.example.com

浏览 1提问于2016-04-25得票数 15

回答已采纳

1回答

如何提取请求url w.r.t.在刮刮中使用链接提取器时响应url？

、、

我正在尝试使用链接提取器从页面中抓取一些url，但我也需要知道被请求的url是根据哪一个响应url提取的。import scrapyfrom scrapy.linkextractors import LinkExtractorclass ExtractSpider(CrawlSpider): allowed_domains = [

浏览 0提问于2018-10-26得票数 1

回答已采纳

1回答

如何在android中压缩pdf页面

、、

我搜索更多，但没有得到适当的代码实现在我的项目，我想卷曲每页的PDF文件，就像普通的书，但无法做到，在我的代码时，我点击按钮PDF文件加载从sdCard。

浏览 2提问于2015-03-04得票数 1

回答已采纳

2回答

使用Python Scrapy时的HTTP 403响应

、、

我在64位Windows Vista上使用的是Python.org 2.7版。我一直在测试下面的Scrapy代码，以递归地抓取www.whoscored.com站点上的所有页面，该站点用于足球统计：from scrapy.selector import Selector from scrapy.item impo

浏览 0提问于2014-07-18得票数 11

回答已采纳

1回答

抓取-只浏览博客文章

、、、

我正在使用Scrapy来抓取网站，但我想知道是否有一种方法可以将其设置为只抓取网站的博客文章(即不包括页面)？我可能会为每个站点创建特定的规则来使其工作，但是如果我需要爬行多个站点的话，这太费时了。有没有办法让一个爬虫在所有网站上通用，只抓取博客帖子？我对此表示怀疑，但我祈祷一些天才对此有个答案。下面是我从Scrapy文档中提取的基本代码。我需要补充些什么才能让这件事奏效？from scrapy.contrib.spiders im

浏览 6提问于2013-05-26得票数 1

3回答

Scrapy，仅遵循内部URLS，但提取找到的所有链接

、、、、

我想从一个给定的网站使用Scrapy获得所有外部链接。使用下面的代码，爬虫也会抓取外部链接：from scrapy.contrib.linkextractorsimport LinkExtractor name = '难道"

浏览 0提问于2015-01-15得票数 16

回答已采纳

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

我在试着了解网络爬行是如何工作的。有三个问题：

浏览 2提问于2018-10-11得票数 1

1回答

如何使用CrawlSpider通过以下链接抓取整个网站？

我意识到使用带有LinkExtractor规则的CrawlSpider只能解析链接的页面，而不能解析起始页面本身。下面是一个简单的代码示例： from scrapy.crawler import CrawlerProcess

浏览 16提问于2019-06-17得票数 0

1回答

使Scrapy仅爬爬子链接

、、

我有以下Scrapy代码，我使用它来尝试在代码中仅从网站抓取英超联赛数据：from scrapy.contrib.linkextractors.sgmlimport SgmlLinkExtractorfrom scrapy.item import Item from scrapy.spiderscrapy.cmdline i

浏览 3提问于2014-07-19得票数 2

2回答

Scrapy不会抓取整个网站

我试着用认证系统抓取整个网站。没有我的auth函数，一切都可以正常工作。当我使用我的auth函数时，只抓取登录和抓取主页。为什么它不抓取规则部分中定义的所有链接？from scrapy.linkextractors import LinkExtractorfrom scrapy.httpimport Request, FormRequest

浏览 22提问于2019-06-03得票数 0

回答已采纳

1回答

我如何在我所有的网页中抓取链接？

、、

到目前为止，我使用scrapy从页面URL中提取文本的代码如下：name = "dialpad" selector = selector.extract()如何从这些页面上的链接中提取数据，并将它们写入我创建的文件名中

浏览 6提问于2018-04-13得票数 1

2回答

使用Scrapy抓取递归页面数据

、、

我正在尝试使用python和Scrapy从中抓取商店位置数据。我已经设法抓取了单个页面，但我想将其设置为遍历链接末尾的1000个递归id的列表。任何帮助都将不胜感激。免责声明:我不知道我在做什么from scrapy.selector import HtmlXPathSelector from

浏览 0提问于2014-02-13得票数 0

1回答

按html标记值计算的刮取链接提取器

、、

我使用抓取来抓取隐私政策，从它的主页抓取一个网站，我想智能地抓取包含特定关键字的页面中的特定链接(隐私、数据、保护等)。我看到了scrapy的CrawlSpider和对象只允许这样做，但是，我希望不仅对已发现的链接应用正则表达式，而且还要应用到<a></a>标记中的文本<a href="我看到scrapy的LinkExtractor对象已经有了一个名为process_v

浏览 0提问于2019-06-05得票数 0

回答已采纳

2回答

Scrapy CrawlSpider不会抓取第一个登录页面

、、

我是Scrapy的新手，我正在做一个抓取练习，我正在使用CrawlSpider。尽管Scrapy框架工作得很好，而且它遵循相关的链接，但我似乎不能让CrawlSpider抓取第一个链接(主页/登录页)。相反，它会直接抓取规则确定的链接，但不会抓取链接所在的登录页面。我不知道如何修复这个问题，因为不建议覆盖CrawlSpider的解析方法。修改follow=True/False也不会产生任何好的结果

浏览 0提问于2013-04-05得票数 16

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何用Scrapy抓取整个网站？

为什么Scrapy只抓取一个页面？

如何用Scrapy抓取网站所有页面上的链接

如何在一个python脚本中调用2个Scrapy爬虫？

Python Scrapy不爬行网站

抓取抓取整个网站的爬虫

如何提取请求url w.r.t.在刮刮中使用链接提取器时响应url？

如何在android中压缩pdf页面

使用Python Scrapy时的HTTP 403响应

抓取-只浏览博客文章

Scrapy，仅遵循内部URLS，但提取找到的所有链接

web爬虫如何构建URL目录以抓取所需内容

如何使用CrawlSpider通过以下链接抓取整个网站？

使Scrapy仅爬爬子链接

Scrapy不会抓取整个网站

我如何在我所有的网页中抓取链接？

使用Scrapy抓取递归页面数据

按html标记值计算的刮取链接提取器

Scrapy CrawlSpider不会抓取第一个登录页面

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐