start_urls的Scrapy CrawlSpider -错误恢复_Scrapy未执行CrawlSpider的所有规则_scrapy - CrawlSpider没有执行我的回调 - 腾讯云开发者社区

scrapy

我正在使用带有errback的规则链接提取器的CrawlSpider。我使用parse_start_url来解析start_urls，但我也需要errback来解析它们。class CS(CrawlSpider): rules = (Rule(LinkExtractor(allow=[], deny=[]), follow=True，只有提取的链接才会调用errback，而不是start_urls。我不能使用

浏览 21提问于2020-09-23得票数 0

2回答

刮掉的CrawlSpider不跟随链接

python、web-scraping、web-crawler、scrapy、scrapy-spider

我正在尝试从这个类别页面上的所有(#123)详细页面中爬行一些属性-- ，但是scrapy无法遵循我设置的链接模式，我检查了刮伤文档和一些教程，但是没有幸运！以下是代码：from scrapy.contrib.spidersimport CrawlSpider, Rule class Stinkybklyn(Crawl

浏览 3提问于2015-06-09得票数 2

回答已采纳

1回答

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

python、scrapy、web-crawler

我试着开始我的刮刀不是从终端，而是从一个脚本。这在没有规则的情况下工作得很好，只需要生成正常的解析函数。我尝试在我的解析函数中生成请求的基础上创建一个爬虫。结果是:我只刮了一个URL，但没有刮到域。from scrapy.spiders import CrawlSpider, Rule from scrapy.linkext

浏览 2提问于2019-11-18得票数 2

回答已采纳

1回答

为什么我无法在Srapy中恢复爬网？

scrapy

我尝试恢复使用以下命令执行的爬网(后来尝试恢复)：但它不会恢复，而是显示以下日志输出：2013-07-17 12:36:58+0530 [scrapy] DEB

浏览 0提问于2013-07-17得票数 1

回答已采纳

1回答

使用Scrapy时出现奇怪的错误

python、scrapy、web-crawler

我遵循教程学习刮痕，但我有一个非常奇怪的问题。它提取url start_urls并将其放置在data.json中。下面是我使用的代码：from scrapy.contrib.spiders import Rule name = "scholar" allowed_domains = ["mininova.org/&q

浏览 1提问于2014-12-26得票数 0

回答已采纳

1回答

错误:蜘蛛必须返回请求，BaseItem，dict或None，GET中的“set”

python、web-scraping、scrapy

我试图索引goanime1.com中包含“Url.The /”的页面，该页面在以前只工作过不同的站点，但由于原因，像这样的错误出现在我的日志中-- scrapy.core.scraper错误: Spiderimport scrapyfrom scrapy.spiders import CrawlSpid

浏览 0提问于2019-08-13得票数 0

回答已采纳

1回答

刮擦蜘蛛不遵循链接和错误

python、web-scraping、scrapy、scrapy-spider

我试图写我的第一个网络爬虫/数据提取器使用刮刮，并无法得到它的后续链接。我也收到了一个错误：有谁知道我怎样才能让它跟随页面上的链接并消除错误呢？import scrapyfr

浏览 2提问于2017-03-29得票数 2

回答已采纳

1回答

创建一个通用的刮伤蜘蛛和多个特定的

python、scrapy、scrapy-spider

有genericspider.pyimport scrapy def __init__(self, start_urls=[], finditemprop='', keywords='', **kwargs): <em

浏览 1提问于2017-06-17得票数 0

回答已采纳

1回答

如何在继承的CrawlSpider中重用基于抓取蜘蛛的解析方法？

python、web-scraping、scrapy、scrapy-spider

我现在有一个基于蜘蛛的蜘蛛，我编写它是为了爬行start_urls的输入JSON数组。from scrapy.spider import Spiderfrom scrapy.contrib.linkextractors.sgmlcomponent/virtuemart/shipping-accessories/nitride-ak47

浏览 2提问于2015-01-22得票数 4

回答已采纳

2回答

刮伤Start_URL不正确

python、url、scrapy、scrapy-spider

这意味着scrapy打开并加载telnet，但永远不会连接。当我使用 (我从“检查(铬)”中的最上面一行得到)时，它会爬行，但看起来这是完全错误的站点。from scrapy.spiders import CrawlSpider, Rulefrom scrapy.selectorimport Selector from kidscamp_com.items

浏览 0提问于2016-04-12得票数 0

2回答

Scrapy不是提取数据，css选择器是正确的。

css、scrapy

这是我的第一个刮刀，我有点麻烦。首先，我创建了我的css选择器，它们在使用scrapy时工作。当我运行我的蜘蛛时，它只返回以下内容2017] INFO: Spider closed (finished)我的蜘蛛长得像这样 import <e

浏览 3提问于2017-10-26得票数 0

回答已采纳

1回答

爬行无穷无尽

python、xpath、web-scraping、scrapy、web-crawler

我的蜘蛛应该能够爬行整个域的每个链接，并且应该识别，如果它是一个产品链接或者例如一个分类链接，但是只会将产品链接写到项中。在这个过程之后，它应该将链接保存在我的列表中。Problem Spider收集所有链接，而不是解析包含"-a“的链接import scrapy from scrapy</e

浏览 2提问于2020-08-04得票数 0

回答已采纳

1回答

在有刮痕的网站上爬行所有评论

python、scrapy

我试图抓取所有的评论在一个购物网站上使用Scrapy。我找到了这个密码：from scrapy.spiders import CrawlSpider, Rulename = 'deneme'<

浏览 0提问于2018-05-23得票数 0

回答已采纳

1回答

如何跟踪特定的链接和刮刮内容使用刮除？

python、html、web-scraping、scrapy

所有页面都以同样的方式链接在主页上。<body></body>从<

浏览 2提问于2014-04-09得票数 2

2回答

如何使用请求库从基本url爬行到scrapy中的另一个url。

python、scrapy

import scrapyfrom scrapy.contrib.spiders import CrawlSpiderfrom scrapy.http import Request name = 'nextli

浏览 0提问于2017-11-21得票数 4

1回答

Scrapy Crawler多个域在检索源页面后没有错误地完成

python-3.x、scrapy

尝试让Scrapy抓取多个域。我让它工作了很短时间，但有些东西改变了，我不知道是什么。我的理解是，带有规则的"CrawlSpider“应该遵循任何允许的链接，直到深度设置或域名耗尽。import scrapyfrom scrapy.linkextractors import LinkExtractor编辑：好的，只

浏览 29提问于2018-06-03得票数 1

回答已采纳

3回答

Scrapy，仅遵循内部URLS，但提取找到的所有链接

python、scrapy、web-crawler、scrape、scrapy-spider

我想从一个给定的网站使用Scrapy获得所有外部链接。使用下面的代码，爬虫也会抓取外部链接：from scrapy.contrib.linkextractorsimport LinkExtractor name = 'crawlte

浏览 0提问于2015-01-15得票数 16

回答已采纳

1回答

如何使用Scrapy进行分页并访问每个页面上的所有链接

python、web-scraping、scrapy

我有下面的蜘蛛，我尝试结合分页和规则访问每个页面上的链接。import scrapyfrom scrapy.spiders import CrawlSpider,Rule name = "paging" start_urls = ['https://a

浏览 3提问于2022-03-04得票数 0

回答已采纳

2回答

Scrapy CrawlSpider不会抓取第一个登录页面

python、scrapy、web-crawler

我是Scrapy的新手，我正在做一个抓取练习，我正在使用CrawlSpider。尽管Scrapy框架工作得很好，而且它遵循相关的链接，但我似乎不能让CrawlSpider抓取第一个链接(主页/登录页)。相反，它会直接抓取规则确定的链接，但不会抓取链接所在的登录页面。我不知道如何修复这个问题，因为不建议覆盖CrawlSpider的解析方法。修改follow=True/False也不会产生任何好<em

浏览 0提问于2013-04-05得票数 16

回答已采纳

2回答

Python/Scrapy转到其他URL

python、scrapy

所以我正在做一个关于scrapy的小项目，我对python和scrapy还是个新手。basicurl = "canadianlawlist.com/" products = response.xpathsearchresult_item_regular"]/a/@href').extract

浏览 21提问于2018-08-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云