crawlspider js_Scrapy CrawlSpider不会退出_从爬虫迁移到CrawlSpider - 腾讯云开发者社区

python、scrapy

我试图爬行一个网站，搜索所有的JS文件来下载它们。我刚接触Scrapy，我发现我可以使用CrawlSpider，但我似乎对LinkExtractors有一个问题，因为我的解析器没有执行。import scrapyfrom scrapy.linkextractors import LinkExtractorclass JSDownloader(CrawlSpider): name = 'jsdownloader'

浏览 25提问于2021-02-17得票数 0

回答已采纳

2回答

使用scrapy的项加载程序填充数据时，它在shell中工作，而在蜘蛛中不工作

python、scrapy

output_processor=Identity()spider.py l.add_xpath('brand', '//*[@id="js-breadcrumb"]/li[4]/a/span/t

浏览 0提问于2018-10-09得票数 2

回答已采纳

1回答

使用Scrapy时出现奇怪的错误

python、scrapy、web-crawler

我遵循教程学习刮痕，但我有一个非常奇怪的问题。它提取url start_urls并将其放置在data.json中。下面是我使用的代码：from scrapy.contrib.spiders import Rule url = scrapy.Field() name = "scholar"

浏览 1提问于2014-12-26得票数 0

回答已采纳

1回答

用下一页抓取。规则语法

python、scrapy

DOZ2.items import prodItemfrom scrapy.spiders import CrawlSpiderDOZ2.items import prodItemfrom scrapy.spiders import CrawlSpider

浏览 2提问于2016-02-10得票数 1

回答已采纳

1回答

Scrapy scraper无法抓取链接

python、screen-scraping、scrapy

我对Scrapy很陌生。这是我的蜘蛛爬行的两张网。 allowed_domains = ["twistedmatrix.com"] "http://twistedmatrix.com/documents/current/web/howto/", rules = (

浏览 1提问于2010-08-19得票数 0

1回答

我可以手动将链接添加到LinkExtractor吗？

python、scrapy

看起来LinkExtractor不能从函数()中的ajax请求加载/生成的数据中提取链接！

浏览 2提问于2016-08-05得票数 0

回答已采纳

1回答

BaseSpider和CrawlSpider在一起

python、scrapy

我想知道是否有一种方法同时使用基础蜘蛛以及爬行蜘蛛在同一蜘蛛在刮刮！

浏览 0提问于2014-02-04得票数 1

回答已采纳

1回答

刮伤CrawlSpider不爬行

python、html、mongodb、scrapy、web-crawler

为此，我使用CrawlSpider，最终的结果将是获取所有这些数据，并按模型名称将其放入mongoDB文档中。显然，我还没有完成，也还没有达到这一点。我现在拥有的是：import scrapyfromSgmlLinkExtractorfrom scrapy.item import Item class FenderSpide

浏览 3提问于2014-11-04得票数 0

1回答

Scrapy，解析第一页中的项目，然后单击链接获取其他项目

python、callback、scrapy、scrapy-spider

更新:我可以让它继续运行，但它不会返回到子页面，也不会再次迭代序列。我试图提取的数据在一个表中，如下所示：我需要首先收集date_1，source_1，然后进入文章的链接并重复...from scrapy.spiders import BaseSpider, Rulefrom scrapy.contrib.linke

浏览 1提问于2016-02-03得票数 0

1回答

未找到刮伤的CrawlSpider属性

python、scrapy

使用Scrapy1.4.0和我在网上找到的修改过的模板，我得到了以下错误： from scrapy.linkextractors import LinkExtractor class TechcrunchSpider(scrapy.CrawlSpider

浏览 2提问于2017-07-31得票数 0

回答已采纳

1回答

Scrapy中的分页规则

python、web-scraping、scrapy、scrape、scrapy-spider

这是爬行器代码(部分)： name = "bsSpider" def __init__(self, *args, **kwargs

浏览 1提问于2015-08-31得票数 0

1回答

刮擦蜘蛛不遵循链接和错误

python、web-scraping、scrapy、scrapy-spider

我试图写我的第一个网络爬虫/数据提取器使用刮刮，并无法得到它的后续链接。我也收到了一个错误：有谁知道我怎样才能让它跟随页面上的链接并消除错误呢？from scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import Rule class Wikispyder

浏览 2提问于2017-03-29得票数 2

回答已采纳

1回答

刮擦蜘蛛不跟随链接

python、scrapy、scrapy-spider

我正在写一只抓取蜘蛛，为今天的“纽约时报”的文章从主页上爬行，但出于某种原因，它没有跟随任何链接。当我在scrapy shell http://www.nytimes.com中实例化链接提取器时，它成功地用le.extract_links(response)提取了一个文章urls列表，但是除了主页之外，我无法获得爬行命令(scrapy crawl nyt -o out.json)来抓取任何东西。我有点不知所措了。是因为主页不产生解析函数的文章吗？任何帮助都是非常感谢的。 from datetime import date

浏览 4提问于2015-06-18得票数 3

回答已采纳

1回答

为什么我无法在Srapy中恢复爬网？

scrapy

我尝试恢复使用以下命令执行的爬网(后来尝试恢复)：但它不会恢复，而是显示以下日志输出：2013-07-17 12:36:58+0530 [scrapy] DEBUG: Enabled extensions: AutoThrottle, LogStats, TelnetConsole, CloseSpider, W

浏览 0提问于2013-07-17得票数 1

回答已采纳

1回答

抓取爬行器仅在深度=1的情况下爬行，并在原因=完成时停止

scrapy、web-crawler

现在，爬虫只爬行每个URL的第一页，然后停止： 'finish_reason': 'finished', 蜘蛛： class TesterSpider(CrawlSpider):Kontaktformular.*', )),callback='parse_item'), super(CrawlSpider

浏览 13提问于2019-09-03得票数 0

回答已采纳

1回答

尝试使用Scrapy解析JSON文件

python、json、web-scraping、scrapy

from tutorial.items import DmozItemfrom scrapy.contrib.spiders import CrawlSpider, Rule name = "dmoz" allowed_domains = ["proadvisorservice.intuit.com

浏览 8提问于2015-05-06得票数 0

回答已采纳

1回答

“刮子”中"set_crawler“和"from_crawler”在“crawl.py”中的作用是什么？

python、scrapy

如果继承了Spider或CrawlSpider，是否应该重写这些函数。如果没有，那为什么？@classmethod spider = super(CrawlSpider, cls).from_crawler_follow_links = crawler.settings.getbool( 'CRAWLSPIDER_FOLLOW_LINKS', Tr

浏览 1提问于2015-04-21得票数 7

回答已采纳

1回答