未调用Scrapy解析函数_如何调用与Scrapy中的主解析函数不同的解析函数？_函数调用未解析的引用 - 腾讯云开发者社区

、、、、

我是新来Scrapy的我正在使用递归解析器爬行r/India子subreddit，以存储每个线程的标题、投票和URL。它工作得很好，但是刮刀意外地结束了，出现了一个奇怪的错误，显示如下： 2018-04-29 00:01:12 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.reddit.com/r/india/?count=50&after=t3_8fh5nv> (referer: https://www.reddit.com/r/india/?count=25&aft

浏览 0提问于2018-04-29得票数 1

1回答

如何利用抓取递归抓取整个网站

、、、

我想用刮伤来抓取完整的网站，但是现在它唯一的爬行单页。 import scrapy from scrapy.http import HtmlResponse from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.contrib.exporter import JsonItemExporter cla

浏览 0提问于2014-11-27得票数 1

1回答

刮擦教程异常

我正在遵循的Scrapy教程文档，并且我已经验证了items.py和dmoz_spider.py的输入是正确的(而不是剪切和粘贴)。第一个“嗯.”对我来说，这是一条指令：这是我们第一个蜘蛛的代码；将它保存在dmoz/蜘蛛目录下的一个名为dmoz_spider.py的文件中我使用的是Ubuntu的最新版本，并且没有创建dmoz文件夹，所以我将这段代码放入了~/教程/教程/蜘蛛中。(这是我的第一个错误吗？) 下面是我的dmoz_spider.py脚本： from scrapy.spider import BaseSpider class DmozSpider(BaseSpider)

浏览 0提问于2012-10-08得票数 8

回答已采纳

2回答

Scrapy:如何在scrapy/wget已经下载的文件上使用XPath选择器？

、

我在跟着走。我的项目涉及解析已经通过Scrapy或wget下载的文件。我知道我可以使用XPath选择器，但是到目前为止，我看到的示例涉及到在Scrapy的解析方法中调用XPath选择器，因此只对Scrapy下载的文件起作用。有没有一种方法可以直接对下载的文件使用XPath？我是Python和Scrapy的新手，所以我找不到在独立的非Scrapy Python脚本中调用XPath的方法。

浏览 2提问于2013-01-13得票数 0

1回答

如何从刮取的数据中去掉html标记和javascript函数？

、

我已经创建了一个粗糙的项目，我需要的数据也被刮掉了。但是问题是，被刮掉的数据包含了很多不想要的东西，比如Javascript函数和其他html标记。如何处理掉这些数据而只获取数据？我的testSpider.py代码： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector from testing.items import testingI

浏览 2提问于2016-01-20得票数 3

回答已采纳

2回答

如何从一长串带有刮伤的urls列表中提取所有内容？

、、、、

我想访问，然后从一个urls列表中提取内容。例如，考虑到这个，我想提取每个帖子的内容。因此，在发布的答案中，我尝试了以下几点： # -*- coding: utf-8 -*- import scrapy from selenium import webdriver import urllib class Test(scrapy.Spider): name = "test" allowed_domains = ["https://sfbay.craigslist.org/search/jjj?employment_type=2"] sta

浏览 0提问于2016-10-31得票数 0

1回答

使用scrapy抓取时处理pdf文档

、、、、

我想解析的PDF文件，遇到时，爬行网站使用scrapy。我使用下面的代码从PDF文档中提取HTML页面源代码，但它不起作用 a = response.xpath("//html").extract() 如何从PDF文档中获取内容并将其合并到scrapy工作流中？

浏览 1提问于2015-02-13得票数 0

1回答

缺少1所需的位置参数：“响应”刮伤

、、

新刮刮，只是想弄清楚，看看我是否可以用它刮我正在读的网络系列，这样我就可以在去学校的路上离线阅读，我也想不出如何纠正这个我一直在犯的错误。 TypeError: parse_wordpress()缺少一个必需的位置参数：“响应” 我认为这意味着网站没有适当的对应，但我想不出一个方法来解决这个问题。 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from scrapy.linkextractors import Lin

浏览 0提问于2019-03-17得票数 2

2回答

在登录后刮取urls列表

要刮除的站点有多个具有多个页面的项目，并且需要登录。我试过： def start_request(self): return [scrapy.FormRequest(, callback=self.logged_in)] def logged_in(self, response): with open(...) as f: for url in f.readlines(): return scrapy.Request(url, callback=self.parse) def parse(self, response): ..

浏览 6提问于2016-03-11得票数 1

1回答

twitter scrapy未返回

、

我刚接触scrapy，只是在收集我的抓取数据时遇到了一些问题。到目前为止，我已经.. import scrapy class userScrape(scrapy.Spider): name = 'uscraper' allowed_domains = ['twitter.com'] def start_requests(self): url = 'https://www.twitter.com/' tag = getattr(self, 'username', None

浏览 0提问于2018-02-27得票数 0

2回答

CrawlerRunner不使用钩针抓取页面

、、、

我正在尝试使用CrawlerRunner()从脚本启动一个剪贴画，以便在AWS Lambda中启动。我在Stackoverflow中看了钩针库的解决方案，但它对我不起作用。链接：代码如下： import scrapy from scrapy.crawler import CrawlerRunner from scrapy.utils.project import get_project_settings from scrapy.utils.log import configure_logging # From response in Stackoverflow: https://st

浏览 0提问于2019-01-29得票数 0

2回答

如何用Scrapy抓取整个网站？

、、

我无法抓取整个网站，Scrapy只能在表面抓取，我想抓取更深的部分。我已经用谷歌搜索了5-6个小时，但没有任何帮助。我的代码如下： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item from scrapy.spider import BaseSpider from

浏览 0提问于2013-03-19得票数 11

1回答

无法使用刮伤登录

、

我正在尝试刮一个我必须先登录的页面，但是由于某种原因，在我使用FormRequest之后，刮除会爬上另一个没有什么关系的页面。请参阅下面的代码： # coding: utf-8 import scrapy from scrapy.http import Request, FormRequest usuario = 'myemail' senha = 'mypassword' urllogin = 'https://ludopedia.com.br/login' urlnotificacoes = 'https://ludopedia.c

浏览 1提问于2017-07-25得票数 0

回答已采纳

1回答

列表对象中具有多个url的Scrapy

、

我是巨蟒的三年级学生我有一些关于蜘蛛的问题。我已经捕获了一些URL，并将其放入我的列表对象中，然后我想使用该URL再次执行Scrapy，是否可以动态更改URL并继续执行Scrapy。或者有人能给我一个关于"Scrapy“的概念，非常感谢。 'def parse(self,response): sel=Selector(response) sites=sel.xpath('//tr/td/span[@class="artist-lists"]') items = [] for site in sites:

浏览 1提问于2014-11-16得票数 0

2回答

Scrapy -关于抓取论坛的一些问题

、

我想刮擦一个电影论坛，它的结构类似于 Page 1 Thread 1 in Page 1 Thread 2 in Page 1 ... Page 2 Thread 1 in Page 2 Thread 2 in Page 2 ... 页面和线程具有非常不同的htmls，因此我编写了xpath表达式来提取页面和线程所需的信息。在parese()方法，我使用了文档中的一个示例来遍历每个页面： page_links = ['page_1', 'page_2', ...] for page_link in page_links: if page_l

浏览 95提问于2020-07-17得票数 1

回答已采纳

3回答

抓取爬行器索引错误

、、

这是我一直试图在Scrapy框架中编写的Spyder1代码： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item from firm.items import FirmItem class Spider1(CrawlSpider): domain_name

浏览 0提问于2009-11-27得票数 2

回答已采纳

1回答

解析中的scrapy回调未调用

、

我正在尝试刮伤，结果被卡住了。我希望这个脚本能够运行回调。 import scrapy from scrapy.spiders import Spider class ASpider(Spider): name = 'myspider' allowed_domains = ['wikipedia.org','en.wikipedia.org'] start_urls = ['https://www.wikipedia.org/'] def parse(self, response):

浏览 5提问于2016-05-31得票数 1

回答已采纳

1回答

response.url如何知道我们请求的是哪个url？

、、、

class PostsSpider(scrapy.Spider): name = "posts" start_urls = ["https://blog.scrapinghub.com/pages/1/", "https://blog.scrapinghub.com/pages/2/"] def parse(self, response): page=response.url.split('/')[-1] 我刚刚开始使用Scrapy，我对最后一行写着

浏览 23提问于2020-11-01得票数 1

回答已采纳

1回答

使用基于python scrapy的爬虫，但遇到错误

、

大家好，我用python写了一个爬虫来抓取...... import scrapy from c2.items import C2Item try: class C2(scrapy.Spider): name = 'cn' allowed_domains = ['priceraja.com'] start_urls = ['https://www.priceraja.com'] def parse_item(self, respon

浏览 12提问于2017-07-06得票数 0

1回答

爬行请求的FIFO顺序与刮刮

、

我希望scrapy按FIFO顺序处理爬行，例如，在该循环中有一个循环每个元素处理3个深度节点，第二个元素在完成第一个元素3深度调用之后开始。

浏览 2提问于2016-05-06得票数 0

回答已采纳

1回答

使用python scrapy抓取不同域名的多个网站

、

我想抓取两个不同网站的带有相应链接的电子邮件，但我得到了两个具有相同链接的不同电子邮件。实际上，有很多网站需要抓取，但为了简单起见，我只使用了两个urls。代码如下： import scrapy import re import time urls = ['http://www.manorhouseohio.com', 'http://www.OtterCreekAL.com'] class TheknotSpider(scrapy.Spider): name = 'theknot' def start_requests(self

浏览 1提问于2021-03-22得票数 0

1回答

使用scrapy对href进行刮除

、、

我要刮href，但他们给了我empty list import scrapy from scrapy.http import Request class PushpaSpider(scrapy.Spider): name = 'pushpa' start_urls = ['http://smartcatalog.emo-milano.com/it/catalogo/elenco-alfabetico/400/A'] def parse(self, response): for href in response.xpa

浏览 1提问于2022-01-26得票数 0

1回答

抓取AWS博客网站时Scrapy不返回任何内容

、

这是我在AWS博客网站首页抓取URL列表的尝试。但它不返回任何内容。我想可能是我的xpath出了问题，但不确定如何修复。 import scrapy class AwsblogSpider(scrapy.Spider): name = 'awsblog' allowed_domains = ['aws.amazon.com/blogs'] start_urls = ['http://aws.amazon.com/blogs/'] def parse(self, response): blogs

浏览 17提问于2019-11-06得票数 0

回答已采纳

2回答

使用Urllib和Scrapy进行分页

、、、、

试图用Scrapy删除下一页，使用urlib Python库的Python3.5 import datetime import urllib.request import urllib.error import urllib.parse import socket import scrapy from scrapy.loader.processors import MapCompose, Join from scrapy.loader import ItemLoader from properties.items impo

浏览 3提问于2017-02-14得票数 0

回答已采纳

2回答

在scrapy上使用xpath提取类内的字符串

、、

我想在下面的html中提取单词白色 <p class="current">(WHITE)</p> 我使用的是python-scrapy，它只能用Xpath进行提取。使用chrome，我得到了xpath： //*[@id="addToCart_pdp"]/div[3]/div[1]/p 使用scrapy我得到了 hxs.select('//*[@id="addToCart_pdp"]/div[3]/div[1]/p') >> [<HtmlXPathSelector xpath='

浏览 1提问于2013-07-14得票数 2

2回答

AttributeError:在使用scrapy时，“模块”对象没有属性“数据库”

、、

我试图在我的项目的根目录中运行scrapy shell，但是我一直收到一个关于某种数据库设置的模糊错误。我不确定这是否是SQLAlchemy thing...or，我的模式定义有什么问题吗？如果我从项目路径之外的任何其他目录运行scrapy shell http://some_website.com，则没有问题。试图启动外壳： me@me:~/my_spider$ scrapy shell http://some_website.com 2015-12-13 15:15:58-0800 [scrapy] INFO: Scrapy 0.24.4 started (bot: my_bot) 2

浏览 0提问于2015-12-13得票数 2

回答已采纳

1回答

如何使用Scrapy和Selenium从链接列表中抓取项目

、、、、

你能帮我更正一下这个脚本吗?我有一个链接列表，搜索结果，我想检查和爬行这些链接中的每一个。但是这个脚本只点击第一个链接，然后我的爬虫就停止了。任何帮助都是非常感谢的。代码“天基”： from scrapy.contrib.spiders import CrawlSpider from scrapy import Selector from selenium import webdriver from selenium.webdriver.support.select import Select from time import sleep

浏览 6提问于2015-07-22得票数 0

1回答

scrapy、splash、lua、按钮单击

、、、、

我对这里的所有乐器都是新手。我的目标是从大量页面中提取所有的URLS，这些页面通过一个"Weiter"/"next“按钮连接在一起--对于几个URLs。我决定用scrapy来试一试。该页面是动态生成的。然后我了解到我需要更多的仪器，并为此安装了Splash。安装工作正常。我根据教程设置了安装。然后，我设法通过在search-input-field中发送"return“来获得第一个页面。浏览器会给出我需要的结果。我的问题是，我试图点击生成的页面上的“下一步”按钮，但不知道具体怎么做。正如我在几页上读到的那样，这并不总是那么容易。我尝试了建议的解决方案，但没有成功。

浏览 2提问于2017-11-05得票数 6

2回答

Scrapy parse_node()精确地接受3个参数(2个给定)

、、

我在Scrapy中的parse_node方法面临一些问题： class s1(scrapy.spiders.XMLFeedSpider): name = "s1" handle_httpstatus_list = [400,401,403,404,408,410,500,502,503,504] allowed_domains = ["xxx"] start_urls = ["xxx"] main_url = start_urls[0] jobs_list = [] tracker = SummaryTracker() itertag =

浏览 5提问于2016-04-02得票数 0

4回答

Scrapy:未定义解析回调

、

我总是得到NotImplementedError('{}.parse callback is not defined'.format(self.__class__.__name__))。然而，我试着遵循的例子。 2019-12-27 11:40:40 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://latindancecalendar.com/festivals/> (referer: None) ERROR:scrapy.core.scraper:Spider error processing <

浏览 6提问于2019-12-27得票数 1

1回答

试图在爬行时使用Scrapy编写输出

、

我正在尝试抓取和获取所有的链接，从网页使用刮除。当我在终端scrapy crawl crawl1 -o items.csv -t csv中像这样运行它时。我确实看到它确实会爬行，并获得如下链接，但它不会在所提到的输出文件中写入任何内容。 2016-12-05 16:17:33 [scrapy] DEBUG: Crawled (200) <GET http://www.abof.com/men/new-in/footwear> (referer: http://www.abof.com/) 2016-12-05 16:17:33 [scrapy] DEBUG: Crawled (2

浏览 1提问于2016-12-05得票数 0

回答已采纳

2回答

等待Scapy回调函数

、、、

我对一般的Scrapy和Python都很陌生。以下是代码： import scrapy import json class MOOCSpider(scrapy.Spider): name = 'mooc' start_urls = ['https://www.plurk.com/search?q=italy'] custom_settings = { 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', } gl

浏览 3提问于2020-12-03得票数 1

回答已采纳

1回答

如何正确地使用scrapy.Request？

、

我试图让我的爬虫爬到下一页，所以我写了这个函数： def requestURL(self, hrefPath): print(hrefPath) url = "http://www.presseportal.de/" + hrefPath yield scrapy.Request(url, callback=self.parse) 它甚至没有打印变量hrefPath，所以我怀疑函数没有被调用，尽管我非常肯定我正确地调用了它：self.requestURL(hrefPath) 我对刮擦很陌生，所以如果这个问题看起来很愚蠢，

浏览 1提问于2016-11-17得票数 0

回答已采纳

1回答

Python Scrapy不爬行网站

、、、

我对python很陌生，并试图通过一个小例子，但是我遇到了一些问题！我只能抓取第一个给定的网址，但我不能抓取超过一个网页的或整个网站的问题！请帮助我，或给我一些建议，我如何可以爬行整个网站或更多的网页，在一般情况下. 我所做的例子很简单..。我的items.py import scrapy class WikiItem(scrapy.Item): title = scrapy.Field() 我的wikip.py (蜘蛛) import scrapy from wiki.items import WikiItem class CrawlSpider(scrapy.S

浏览 4提问于2016-05-19得票数 0

2回答

Scrapy未进入parse方法

、、、

我在使用Scrapy时遇到了问题，由于某种原因，它没有进入我的parse方法，我不知道为什么会这样。我尝试过不同的选择，但都没有成功。这就是我的代码现在的样子。具体地说，有两个print语句，parse()方法中的一个没有被调用。 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy import log from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.link

浏览 0提问于2012-07-05得票数 0

回答已采纳

1回答

如何在方法中检索scrpy job id？

、

我正在尝试通过spider_close方法获取一个2.1.x作业的作业id： class mysql_pipeline(object): import os def test: print(os.environ['SCRAPY_JOB']) 不幸的是，这导致了一个键错误： ERROR: Scraper close failure Traceback (most recent call last): File "/Library/Frameworks/Python.framework/Versions/3.8/lib/python3.

浏览 4提问于2020-05-16得票数 0

1回答

抓取爬行器递归解析数据

、、、、

我用python编写了一个脚本来解析来自网站的不同产品的“名称”和“价格”。它首先从主页面的上边栏中抓取不同类别的链接，然后跟踪每个类别并到达它们的页面，然后从那里解析不同子类别的链接，最后到达目标页面并从那里解析上述数据。我试着把整件事做得与传统的方法略有不同，在传统方法中，有必要制定规则。然而，我使用我在这里应用的逻辑，让它按照我预期的方式工作。如果有任何改进，我将非常乐意遵守。以下是我尝试过的： "sth.py“又名蜘蛛包含： import scrapy class SephoraSpider(scrapy.Spider): name = "sephorasp

浏览 0提问于2017-08-05得票数 2

回答已采纳

1回答

创建后刮掉的解析错误的页面

、、、

我在这方面有点新，我从网络上借来了代码。我正在尝试在身份验证之后解析页面的内容，但是我只得到登录页面。看来我的登录是正确的。最终，我想要一个特定的表，但是现在我对页面转储很满意。 # -*- coding: utf-8 -*- import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http import Request from scrapy import log class AesopSpider(scrapy.Spider): name = "alt" #allo

浏览 1提问于2014-10-05得票数 0

回答已采纳

1回答

蜘蛛不刮页/写字

、

我使用下面的代码来使用scrapey刮取数据： from scrapy.selector import Selector from scrapy.spider import Spider class ExampleSpider(Spider): name = "example" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

浏览 1提问于2014-07-01得票数 2

1回答

Scrapy返回的结果比预期的多。

、、、、

这是问题的延续：我有一个Scrapy蜘蛛，它从JSON响应中提取值。它工作良好，提取正确的值，但不知怎的，它进入一个循环并返回比预期更多的结果(重复的结果)。例如，对于test.txt文件中提供的17个值，它返回289结果，这意味着17 times more比预期的要多。蜘蛛内容如下： import scrapy import json from whois.items import WhoisItem class whoislistSpider(scrapy.Spider): name = "whois_list" start_urls = []

浏览 1提问于2016-07-11得票数 1

回答已采纳

1回答

Scrapy请求不会被解析

、、、

我的所有请求都不会被解析。不过，它已经被成功解析了。下面是我的代码： # -*- coding: utf-8 -*- import scrapy from boardgamegeek.items import BoardgamegeekItem class TwoPlayersSpider(scrapy.Spider): name = 'two_players' start_urls = [ 'https://www.boardgamegeek.com/xmlapi/geeklist/48970', '

浏览 8提问于2019-03-10得票数 0

1回答

Python Scrapy:使用不同的方法获取页面会得到不同的结果

、

浏览 24提问于2020-06-09得票数 1

回答已采纳

3回答

只抓取1级的网站

、、

我使用刮除爬行在一个域下的所有网页。我见过的问题。但没有解决办法。我的问题似乎是相似的。我的爬行命令输出如下所示： scrapy crawl sjsu2012-02-22 19:41:35-0800 [scrapy] INFO: Scrapy 0.14.1 started (bot: sjsucrawler) 2012-02-22 19:41:35-0800 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, MemoryUsage, SpiderSt

浏览 1提问于2012-02-23得票数 3

回答已采纳

1回答

不能爬行

、、

我试图抓取一些网站使用刮刮。下面是一个示例代码。方法解析没有被调用。我试图通过一个反应堆服务运行代码(代码提供)。所以，我从有反应堆的startCrawling.py运行它。我知道我错过了什么。你能帮帮忙吗。谢谢, Code-categorization.py from scrapy.contrib.spiders.init import InitSpider from scrapy.http import Request, FormRequest from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from s

浏览 0提问于2014-12-03得票数 0

回答已采纳

2回答

使用Scrapy下载文件时遇到麻烦

、、

我试图从一个表中提取数据，该表显示了来自的活动出价列表。我是个小菜一碟的新手，不知道为什么我没有下载的文件。我能够输出文件urls，但仍然无法从列出的urls下载文件。我无法弄清楚我错过了什么或者需要改变什么。对此的任何帮助都将受到高度赞赏！谢谢! 到目前为止，我有以下代码：这是我的蜘蛛 from government.items import GovernmentItem import scrapy, urllib.parse import scrapy from government.items import GovernmentItem class AlabamaSpider(s

浏览 4提问于2021-07-12得票数 0

回答已采纳

3回答

CrawlSpider如何知道如何处理已生成的请求对象？

、

在Scrapy文档中，此代码用于说明如何将信息传递给回调函数。我的问题是，这个代码中的CrawlSpider类是如何执行生成的请求对象的？这是简单的编码行为吗？此外，是否使用yield而不是return来保持函数运行，并准备好在刮多个urls时接受更多的Response对象？如果只刮掉一个url，返回Request对象的效果会一样好吗？如果这些都是基本问题，我很抱歉，我以前没有使用过Python或Scrapy。 def parse(self, response): request = scrapy.Request('http://www.example.com/index.ht

浏览 4提问于2022-06-11得票数 0

回答已采纳

1回答

刮掉键错误和下一页url不工作

、

我正在尝试刮，使用这个页面作为启动url：这个页面有3个列表，其中一个列表有100+项。我的代码只抓取100项，而不从下一页获取数据。请检查代码有什么问题。 import scrapy from urllib.parse import urljoin class lisTopSpider(scrapy.Spider): name= 'ImdbListsSpider' allowed_domains = ['imdb.com'] start_urls = [ 'https://www.imdb.com/lists/t

浏览 5提问于2020-05-06得票数 0

回答已采纳

1回答

抓取的递归爬虫问题

、、

我试图爬行viagogo.com我想爬行的每一个显示从页面：我能够得到第一页的显示，但当我试图移动下一页它就是不爬行！下面是我的代码： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from viagogo.items import ViagogoItem from scrapy.http imp

浏览 1提问于2014-12-13得票数 0

2回答

刮伤机构或规则不起作用

、、、

我一直试图让Scrapy的链接提取器工作，但没有结果。我想要它找到任何链接，然后调用一个不同的方法，它只是打印出一些东西，以表明它是有效的。这是我的蜘蛛 from scrapy.spiders import Rule, CrawlSpider from scrapy.linkextractors import LinkExtractor class TestSpider(CrawlSpider): name = 'spi' allowed_domains = ['https://www.reddit.com/'] start_url

浏览 8提问于2017-08-01得票数 0

回答已采纳

2回答

如何理解scrapy.Request中的回调函数？

、、

我正在使用Python第二版阅读Web抓取，并希望使用Scrapy模块从网页中抓取信息。我从文档中获得以下信息：回调(可调用)-该函数将以该请求的响应(一旦下载)作为其第一个参数来调用。有关更多信息，请参见将其他数据传递给下面的回调函数。如果请求没有指定回调，那么将使用蜘蛛的parse()方法。注意，如果在处理过程中引发异常，则将调用errback。我的理解是：传入url并重新定位，就像在请求模块中一样。 resp = requests.get(url) 传递用于数据解析的resp 解析(Resp) 问题是：我没看到resp是从哪里传入的为什

浏览 4提问于2020-07-04得票数 0

回答已采纳