Scrapy和rules

、、

我是从Scrapy开始的，我成功地制作了几个蜘蛛攻击同一个网站。因为程序必须登录到网站，所以我必须覆盖start_requests，但当我覆盖它时，规则不会被处理。这是我的爬虫代码：import scrapyfrom <e

浏览 15提问于2020-06-05得票数 0

回答已采纳

1回答

用下一页抓取。规则语法

、

我正在尝试使用scrapy进行递归的web抓取。我想去'‘，并通过下面的按钮，从这个网站获得所有的产品名称和价格。我能够创建这个蜘蛛(它正常工作)：from scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rule class DmozSpider(scrapy.Sp

浏览 2提问于2016-02-10得票数 1

回答已采纳

1回答

刮伤LinkExtractor不起作用

埃里克from scrapy.contrib.spiders import CrawlSpider, Rule# from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor class YTSpider(scrapy.Sp

浏览 1提问于2015-05-01得票数 2

回答已采纳

1回答

使用Scrapy时出现奇怪的错误

、、

下面是我使用的代码：from scrapy.contrib.spiders import Rule url = scrapy.Field() allowed_domains

浏览 1提问于2014-12-26得票数 0

回答已采纳

1回答

scrapy上的多个蜘蛛

、、

我用姜戈，芹菜，scrapy。import CrawlerProcessfrom scrapy_parser.scrapy_parser.spiders.map_linksimport MapLinksSpiderfrom thread

浏览 0提问于2018-06-21得票数 0

1回答

抓取网站时Scrapy无法跟踪内部链接

、

我试图遵循所有的内部链接，同时跟踪所有内部和外部链接到一个网站。我刚刚开始与Scrapy合作，我无法弄清楚我如何爬行，同时遵循网站上的所有内部链接。 name = "brs" rules = (Rule(SgmlLinkExtractor(allow=()), callback='parse_obj

浏览 8提问于2017-07-04得票数 0

回答已采纳

2回答

使用Scrapy查找并抓取所有具有特定格式的URL

、、

我正在使用Scrapy来检索有关上项目的信息。我想抓取所有的网页与网址格式www.indiegogo.com/projects/[NameOfProject]。这些start_urls和规则大约有6000页，但我听说应该有接近10倍的数量。，显然会错过不受欢迎和资金不足的项目。filter_browse_balance=true&filter_quick=popular_all&per_page=50000"rules = ( Rule(LinkExtractor

浏览 1提问于2014-11-05得票数 0

1回答

如何用Scrapy抓取网站所有页面上的链接

、、、

ppgcc.ufv.br"] 'http://www.ppgcc.ufv.br/', rules = [Rule(SgmlLinkExtractorrandom.randint(1, 9999)) #I'm trying to understand how to use rulesallowed_

浏览 2提问于2015-06-01得票数 4

回答已采纳

1回答

使用Scrapy抓取链接

、、、、

我的代码用于抓取一个没有以下链接的简单页面： name = "boolidata" for link in response.css('.nav-list a::attr(href)').extract(): yield scrapy.Request

浏览 0提问于2018-04-06得票数 0

1回答

python中的Scrapy Crawler不能跟踪链接吗？

、

我使用python的scrapy工具用python编写了一个爬虫。allowed_domains = ["a11y.in"] File "/usr/lib/python2.6/site-packages&

浏览 2提问于2011-03-08得票数 7

1回答

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

、、

import scrapy from bs4 import BeautifulSoupfrom scrapy.spiders import CrawlSpider, Rule allowed_domains = [&qu

浏览 2提问于2019-11-18得票数 2

回答已采纳

2回答

扫描图像的URL模式？

、、、

我试过使用Python和Scrapy，但我对它还很陌生。这就是我所能做到的：from scrapy.contrib.linkextractorsexample' start_urls = ['http://a.example.c

浏览 0提问于2015-10-18得票数 0

1回答

链接提取错误

、

我的目标是提取一个特殊的数据在不同的links.For为目标链接的例子主页是，我想收集的价格价值 My code is like that : fromscrapy.spiders import CrawlSpider,Rulefrom scrapy.selectorimport Selector from scrapy.http import HtmlRes

浏览 0提问于2016-03-15得票数 0

1回答

如何在scrapy站点地图爬行器中覆盖sitemap_rules？

、

我尝试使用init方法在爬行器中动态添加sitemap_rules。我可以使用相同的方法更改sitemap_urls，但sitemap_rules不会被覆盖。谁能告诉我我哪里做错了。下面是我的代码：from scrapy.spiders import SitemapSpiderfrom myspider.items import MyItem from scrapy import s

浏览 1提问于2019-11-29得票数 2

2回答

爬行器用于解析和添加来自XML页面的链接。

、

我知道有一个SitemapSpider和XMLFeedSpider，但是我需要带有XMLFeedSpider的爬行器的功能，反之亦然。任何帮助都将不胜感激。

浏览 5提问于2016-03-19得票数 1

回答已采纳

1回答

刮擦跟随&刮下几页

、、、

我有一个问题，我的刮除蜘蛛不会爬行一个网站，只是刮一页和抓住。我的印象是rules成员变量对此负有责任，但我无法让它跟踪任何链接。我一直在跟踪这里的文档：from scrapy.contrib.linkextractors import LinkExtractorfrom scrapy.selector import Selector from Exampl

浏览 2提问于2015-03-02得票数 2

回答已采纳

1回答

刮掉的SgmlLinkExtractor推荐人无

、

这是我在蜘蛛里的代码：Rule(SgmlLinkExtractor(allow=(r'ad/\w+/67-\d+\.html',), callback='parse_items'),示例url如下所示：scrapy crawl khmer24的输出是：

浏览 1提问于2013-02-28得票数 1

1回答

使用芹菜时不遵循链接的刮伤蜘蛛

、、、、

我用Django，Scrapy和芹菜来达到这个目的。定义的唯一规则是一个SgmlLinkExtractor实例和一个回调函数parse_page，它只提取响应url和页面标题，用它们填充一个新的DjangoItem (HTMLPageItem)，并将其保存到数据库中.items import HTMLPageItemfrom scrapy.contrib.spiders import Ruleself.start

浏览 0提问于2014-06-15得票数 4

回答已采纳

1回答