在Scrapy中使用请求元以不同的顺序传递参数

是指在使用Scrapy框架进行网络爬虫开发时，可以通过请求元（Request Meta）来传递参数，并且可以控制参数传递的顺序。

Scrapy是一个基于Python的开源网络爬虫框架，它提供了一套高效、灵活且可扩展的机制来处理网页的抓取和数据提取。在Scrapy中，可以通过创建请求对象（Request）来发送HTTP请求，并且可以在请求对象中设置请求元（meta）属性来传递参数。

请求元是一个字典类型的属性，可以在发送请求时将参数以键值对的形式添加到请求元中。在Scrapy中，可以通过设置请求元的方式来传递参数，并且可以通过不同的顺序来控制参数的传递。

以下是在Scrapy中使用请求元以不同的顺序传递参数的步骤：

创建请求对象时，可以通过设置meta参数来添加请求元。例如：

yield scrapy.Request(url, callback=self.parse, meta={'param1': 'value1', 'param2': 'value2'})

在回调函数中，可以通过response.meta来获取请求元。例如：

def parse(self, response):
    param1 = response.meta['param1']
    param2 = response.meta['param2']
    # 其他处理逻辑

可以在回调函数中根据需要修改请求元，并创建新的请求对象。例如：

def parse(self, response):
    param1 = response.meta['param1']
    param2 = response.meta['param2']
    
    # 修改请求元
    new_meta = response.meta.copy()
    new_meta['param1'] = 'new_value1'
    
    # 创建新的请求对象
    yield scrapy.Request(new_url, callback=self.parse_detail, meta=new_meta)

通过以上步骤，可以在Scrapy中使用请求元以不同的顺序传递参数。这种方式可以方便地在不同的请求之间传递参数，并且可以根据需要进行灵活的参数修改和控制。

在使用Scrapy进行网络爬虫开发时，可以根据具体的需求和场景来决定是否使用请求元以及如何使用请求元来传递参数。这种方式可以提高爬虫的灵活性和可扩展性，使得爬虫可以更好地适应不同的网站结构和数据提取需求。

腾讯云相关产品和产品介绍链接地址：

腾讯云官网：https://cloud.tencent.com/
云服务器（CVM）：https://cloud.tencent.com/product/cvm
云数据库 MySQL 版：https://cloud.tencent.com/product/cdb_mysql
云原生应用引擎（TKE）：https://cloud.tencent.com/product/tke
云存储（COS）：https://cloud.tencent.com/product/cos
人工智能（AI）：https://cloud.tencent.com/product/ai
物联网（IoT）：https://cloud.tencent.com/product/iotexplorer
移动开发（移动推送、移动分析）：https://cloud.tencent.com/product/mobile
区块链（BCS）：https://cloud.tencent.com/product/bcs
元宇宙（Tencent XR）：https://cloud.tencent.com/product/xr

在python中，request meta是如何工作的？

、

在scrapy中，如果我使用大的meta进行请求。例如，some_meta是一个很大的字典。那么，它如何影响请求/响应时间，如果它被映射到内存以供参考，而不是发送到url端点，它是如何做到的呢？我是scrapy的新手，我搜索了这个信息，但是找不到。

浏览 0提问于2015-08-05得票数 1

1回答

我一直在运行一个刮板，并注意到它正在返回重复的结果。换句话说，它是为来自另一项的项分配结果。我的设置文件有CONCURRENT_REQUESTS = 100，没有设置DOWNLOAD_DELAY。这是我的蜘蛛密码： def start_requests(self): settings = get_project_settings() ids = settings.get('IDS', None) for i, id in enumerate(ids): yield FormRequest( url=self._

浏览 4提问于2017-01-29得票数 0

回答已采纳

1回答

刮擦-飞溅过滤器如何复制？

、

当使用scrapy-splash库来呈现JS时。我们将其自定义DUPEFILTER_CLASS添加到settings.py文件中。 DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter' 似乎这是用来过滤请求，以避免发送太多的请求和加快进程。但是，在使用scrapy-splash？时过滤请求的基础是什么？是url吗？

浏览 2提问于2020-12-18得票数 1

1回答

刮擦混合项字段

、、

我正试着用刮痕从TripAdvisor中刮去餐馆的评论。一家餐厅的评论在不同的网页上共享(分页)。我刮掉评论，然后将结果保存在JSON文件或mongoDB中。问题是，当我检查在控制台中刮到的物品时，评论是混合的，例如A餐厅会有评论，B餐厅的一些评论会丢失这些评论。我试图在设置中更改MAX_CONCURRENT_REQUESTS，但没有影响结果。这是spider.py代码 class TripAdvisorItemSpider(scrapy.Spider): name = 'tripadvisor' custom_settings = { 'COLLECT

浏览 1提问于2018-03-21得票数 0

回答已采纳

1回答

忽略robots.txt而不解析页面

、、、

我试图以类似于我在这里的中找到的方式爬行 (请看更新的答案)。为了删除不推荐的内容，我稍微修改了代码。一开始，我遇到了robots.txt限制我的问题，所以我发现我可以在settings.py中设置ROBOTSTXT_OBEY=False，实际上它似乎忽略了它，但出于某种原因，蜘蛛不再使用parse方法了。这是我的蜘蛛 from scrapy.http import Request, FormRequest from scrapy.item import Item, Field from scrapy.spiders import Spider import logging class

浏览 7提问于2017-01-04得票数 0

回答已采纳

2回答

刮除CONCURRENT_REQUESTS信息

、、、、

我正在使用Scrapy，我在文档上读到了关于设置"CONCURRENT_REQUESTS“的内容。文档讨论“由Scrapy下载器执行的并发(即同时)请求的最大数量”。我创建了一个蜘蛛，以便从问答网站获取问题和答案，所以我想知道是否有可能运行多个并发请求。现在，我已经将这个值设置为1，因为我不想丢失某个项或覆盖某个人。主要怀疑是，对于任何项，我都有一个全局ID idQuestion (用于创建idQuestion.idAnswer)，所以我不知道提出多个请求是否都会造成混乱，丢失一些项目或设置错误的ID。这是一段代码片段： class Scraper(scrapy.Spider):

浏览 6提问于2015-10-14得票数 1

1回答

刮伤，等待管道

、、

(我对刮痕很陌生)。上下文假设有一个站点https://example.com，我想刮它。它的结构如下： <body> <ul> <li> title_foo <a href="https://example.com/title_foo">a desription</a> </li> <li> title_bar <a href="https://example.com/title_bar

浏览 3提问于2020-09-26得票数 0

回答已采纳

2回答

如何检查网站是否支持带有刮痕的http、htts和www前缀

、

当我使用http://example.com、https://example.com或http://www.example.com时，我正在使用刮伤来检查某些网站是否正常。当我创建scrapy请求时，它可以正常工作。例如，在我的page1.com上，它总是被重定向到https://。我需要以返回值的形式获取这些信息，或者是否有更好的方法来使用scrapy获取这些信息？ class myspider(scrapy.Spider): name = 'superspider' start_urls = [ "https://page1.com

浏览 1提问于2018-08-30得票数 2

回答已采纳

2回答

在两个解析方法之间发送数据并获取KeyError抓取

、

我只是想刮一下这个链接。我想在两个解析方法之间发送类别名称，但是当scrapy crawler遵循下一页时，它为category_name提供了一个KeyError。 categories_names = response.request.meta['categories_names'] KeyError: 'categories_names' 如何在下一页后面获得相同类别的名称？ # -*- coding: utf-8 -*- import scrapy class MainSpider(scrapy.Spider): name = &#

浏览 5提问于2020-08-17得票数 0

回答已采纳

1回答

Scrapy部署不匹配调试结果

、、、、

我正在使用Scrapy从一个站点中提取一些数据，比如"myproject.com“。以下是逻辑：转到主页，就会有一些categorylist被用来构建第二波链接。对于第二轮链接，它们通常是每个类别的第一页。另外，对于该类别中的不同页面，它们遵循相同的正则表达式模式wholesale/something/something/request or wholesale/pagenumber。我希望遵循这些模式来保持爬行，同时将原始HTML存储在item对象中。我使用分别测试了这两个步骤，它们都起作用了。首先，我试过： scrapy parse http://www.m

浏览 2提问于2014-08-27得票数 1

回答已采纳

1回答

Scrapy FormRequest.from_response()方法

、

Im正在尝试使用Scrapy解析页面，为了显示隐藏的文本和价格，我在字段中输入了任意的邮政编码或随机数字： <input aria-label="Enter your zip code" role="textbox" name="searchTerm" class="form-control js-list-zip-entry-input" placeholder="ZIP Code" autocompletetype="find-a-store-search" tabindex="-

浏览 0提问于2016-11-30得票数 3

1回答

Scrapy -动态文件命名表单解析项

、

我在为一家艺术博物馆做刮擦计划。我是Scrapy框架的新手，充其量是python的中间版我需要从网站下载图片，并相应命名与价值，从分析的数据。我一直在浏览Scrapy文档和谷歌搜索，但到目前为止没有运气。我被困在管道里了。我知道如何在使用包装程序运行Scrapy之后修复文件名，但这似乎是适得其反和草率的。蜘蛛产生的每一个项目如下所示： {'Artist': 'SomeArtist', ... 'Image Url': 'https://www.nationalgallery.org.uk/media/33219/n-1171

浏览 5提问于2020-08-25得票数 0

回答已采纳

1回答

为每个start_url更新mysql的Scrapy管道

、、

我有一个蜘蛛，它从一个start_urls数据库中读取MySQL，并从每个页面中抓取未知数量的链接。我想使用pipelines.py更新数据库中的刮掉的链接，但是我不知道如何将start_url返回到SQL语句的管道中。这是蜘蛛代码，它起作用。 import scrapy import MySQLdb import MySQLdb.cursors from scrapy.http.request import Request from youtubephase2.items import Youtubephase2Item class youtubephase2(scrapy.Spide

浏览 4提问于2017-04-13得票数 1

回答已采纳

1回答

如何获得不同页面的cURL响应？

、、

我正在进行一个小的数据抓取项目，并希望从https://www.germanystartupjobs.com/网站获得所有的工作。这些作业作为POST请求加载。我可以进入各个页面，获取POST请求的POST，并在终端中播放，并获得一些JSON。我得到的JSON格式如下(我提供了从Firefox network tab获得的内容，cURL在终端中也提供了相同的格式)，现在，我所需要的是html tag内部的内容，我可以使用代码片段在相应页面上的href上迭代， html = data['html'] selector = scrapy.Selector(t

浏览 4提问于2016-12-18得票数 0

回答已采纳

1回答

request.meta与类属性擦伤

、、

为了在scrapy中处理回调之间的数据，可以定义类属性： def __init__(self, *args, **kwargs): self.my_var = 1 和使用： self.my_var 而不是： request.meta['my_var'] = 1

浏览 1提问于2016-08-16得票数 1

回答已采纳

1回答

如何在刮伤规则中使用元

、

def parse(self,response): my_item={'test':123,'test2':321} google_url = 'https://www.google.com/search?q=coffee+cans' yield Request(url=google_url,callback=self.google,meta={'my_item':my_item}) def google(self,response): my_item = response.meta['m

浏览 1提问于2019-07-11得票数 0

1回答

在Python (Scrapy)语法中将方法作为参数传递

、

我是Python新手，有一些Java/C#背景。我在Scrapy教程中遇到了回调语法和一个意外的语法，我想了解这些语法。在下面代码的最后一行中，parse_articles_follow_next_page是一个方法，根据我的想象，我希望在那里传递一个响应参数，如：yield scrapy.Request(url, self.parse_articles_follow_next_page(someresponseobject))。那里应用了什么样的Python语法，这样它就没有括号和传递参数，我在哪里可以读到更多关于它的信息呢？ def parse_articles_follow_next

浏览 0提问于2015-10-13得票数 0

回答已采纳

1回答

用于动态字段的刮擦项

、

项字段需要根据设置start_urls的索引而更改。例如 location = input("Location:") second_location = input("Second Location:") start_urls = [ "https://www.yellowpages.com/search?search_terms=" + search_item + "&geo_location_terms=" + location, "https://w

浏览 0提问于2018-04-15得票数 0

回答已采纳

2回答

如何获得302重定向301之后的第一个请求url？

、、、

我使用刮除(ver:1.1.1)在互联网上的一些日期刮擦。我要面对的是： class Link_Spider(scrapy.Spider): name = 'GetLink' allowed_domains = ['example_0.com'] with codecs.open('link.txt', 'r', 'utf-8') as f: start_urls = [url.strip() for url in f.readlines()] def parse(self

浏览 0提问于2016-12-03得票数 0

回答已采纳

1回答

返回时出错response.meta[ ]

、

我正在运行下面的代码，代码似乎有一些问题。下面显示的不是我的全部代码，如果有人问我，我会发布其余的代码： from threading import Thread from selenium import webdriver from scrapy.http import Request from urlparse import urlparse from scrapy.spider import BaseSpider class MySpider(BaseSpider): name = "scrapy" def get_url(): url

浏览 1提问于2013-12-02得票数 1

回答已采纳

1回答

Scrapy修改cookie

、

我可以用scrapy创建cookie，但无法修改现有的cookie。在我正在工作的电子商务网站中，这个cookie处理邮政编码，每个页面都使用这个邮政编码来修改产品属性。我可以使用selenium修改邮政编码，抓取每一页，但抓取过程太慢。我只想使用scrapy，修改这个请求/响应邮政编码cookie。我可以使用下面的代码根据我的请求创建cookie 在SETTINGS.PY中COOKIES_ENABLED = True 在spider.py yield scrapy.Request(response.urljoin(url)，self.parsePage，cookies={'cp&#

浏览 4提问于2020-10-03得票数 0

1回答

如何在Scrapy (python)中同时使用deltafetch和splash

、、

我正在尝试使用scrapy构建一个刮板，我计划使用deltafetch来启用增量刷新，但我需要解析基于javascript的页面，这也是我需要使用splash的原因。在settings.py文件中，我们需要添加SPIDER_MIDDLEWARES = {'scrapylib.deltafetch.DeltaFetch': 100,} for enabling deltafetch whereas, we need to add SPIDER_MIDDLEWARES = {'scrapy_splash.SplashDeduplicateArgsMiddleware

浏览 2提问于2018-03-15得票数 0

1回答

函数，返回值返回到哪里？

、、、

我是“飞毛腿”的新手，如果这个问题微不足道，我很抱歉。我从官方网页上读到了“刮刮”上的文件。当我翻阅文档时，我遇到了这个例子： import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider): name = ’example.com’ allowed_domains = [’example.com’] start_urls = [ ’http://www.example.com/1.html’, ’http://www.example.com/2.html’, ’http:/

浏览 1提问于2014-10-04得票数 7

回答已采纳

1回答

将真实URL通过Scrapy-Splash传递到字典

、、

当试图通过('url‘：response.request.url)将url保存到字典中时，Scrapy从Scrapy中保存所有相同的url () 我尝试过添加额外的参数，这些参数将传递真正的URL，但没有效果。 from scrapy import Spider from scrapy.http import FormRequest from scrapy.utils.response import open_in_browser from scrapy import Request import scrapy from scrapy_splash import SplashReque

浏览 2提问于2019-02-01得票数 2

回答已采纳

1回答

抓取另一个网站的信息

、、、、

来源：我想从站点x1，.，xn中刮取数据，而对于每x，我在站点内刮了10个。我逐个解析我的站点： for el in get_data(): yield scrapy.Request(el, self.parse) 然后，对每个站点x设置一些属性： self.site_id += 1 self.link_id = response.url self.status = -9999 self.current_link = "" self.link_img = "" self.pattern_

浏览 1提问于2018-02-17得票数 0

回答已采纳

1回答

Python擦伤项目中传递全局变量的问题

、

在我正在执行的Scrapy项目中，我很难将包含列表的变量从一个函数发送到另一个函数。我需要这样做，因为我需要在脚本的末尾将来自一个页面的值和另一个页面的值结合起来。守则如下： from scrapy.spider import Spider from scrapy.selector import Selector from scrapy.http import Request from scrapy.http.request import Request from dirbot.items import Website from scrapy.contrib.spiders import Cr

浏览 2提问于2015-03-29得票数 1

回答已采纳

1回答

Scrapy不按顺序爬行后续页面

、、

我正在编写一个爬虫从网站上获取项目的名称。该网站每页有25个项目和多个页面(某些项目类型为200个)。代码如下： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from lonelyplanet.items import LonelyplanetItem class LonelyplanetSpider(Craw

浏览 3提问于2012-06-15得票数 3

1回答

服务器能读取刮刮发送的Request.Meta数据吗？

、、、

下面的代码基本上是Amazon 的示例。我想知道亚马逊服务器(或任何其他服务器)是否知道我们传递给scrapy Request.meta的数据。如果Request.meta没有与我们的请求一起传递，那么如何将该元数据接收到我们的response.meta。，有人能解释一下request.meta和response.meta是如何工作的吗？ import random from HTMLParser import HTMLParser import scrapy from scrapy.crawler import CrawlerProcess import os import sys

浏览 2提问于2017-08-02得票数 4

回答已采纳

2回答

如何获取刮伤壳中的刮伤响应

、、、、

我对Scrapy项目很陌生，我读过很多教程。它们似乎都假设您知道如何立即解析响应对象，并且可以立即调用响应回调(例如scrapy.Request(url=url, callback=self.parse))。但在现实中，我需要使用试用和错误的CSS选择器。如何取回Scrapy响应对象，以便能够交互地操作它？ scrapy.Request(url=url)的响应似乎是我无法处理的(见屏幕截图)--不需要解析HTML -例如，没有.css方法。

浏览 4提问于2017-04-09得票数 2

回答已采纳

1回答

用Scrapy模拟Ajax调用

、、、

我刚开始使用Scrapy进行抓取，不幸的是，我无法通过请求访问数据(以模拟发出的AJAX请求)。我读过其他的话题，但这无助于解决我的问题。我想爬的网站是，它有一个由藻类()驱动的动态搜索框。这是我请求Nutella的蜘蛛(POST)： class AjaxspiderSpider(scrapy.Spider): name = "ajaxspider" allowed_domains = ["auchandirect.fr/recherche"] #start_urls = ['https://www.auchandirect.fr/recherche/

浏览 1提问于2017-02-03得票数 0

回答已采纳

2回答

不使用start_requests调用解析函数

、、

我对Python和Scrapy相当陌生，但似乎有些地方不对劲。根据文档和示例，重新实现start_requests函数将导致Scrapy使用start_requests返回而不是start_urls数组变量。对于start_urls，一切都很好，但是当我添加start_requests时，它不会进入解析函数。文档说明，解析方法是 Scrapy用于处理下载的响应的默认回调，当它们的请求没有指定回调时但解析永远不会执行，跟踪我的记录器打印。这是我的代码，它很短，因为我只是在玩它。 class Crawler(scrapy.Spider): name = 'Heart

浏览 4提问于2016-10-12得票数 0

回答已采纳

1回答

Scrapy中的限制请求

、、、

我正在用Scrapy开发一个蜘蛛，它可以迭代通过一个键控的url。例如，它将使用url作为模板(例如https:\google.com{key})。我遇到了一个问题，我不能让它在正确的时间停止对这些urls的迭代。例如，如果我开始接收到足够多的失败请求，比如404，我想要终止，这样我就不会发送超过需要的请求。我试图引发CloseSpider()。这部分起到了作用。它将停止爬虫，但不会在一些请求完成之前停止。然后，我尝试在跟踪已执行/失败的请求数量的同时，不断地产生请求。问题是我不认为Scrapy可以从start_requests异步运行。我真的需要两种解决方案中的一种： 1)一种从Scr

浏览 10提问于2019-08-09得票数 0

回答已采纳

3回答

在Scrapy中，如何设置每个url的时间限制？

、

我正在尝试抓取多个网站使用Scrapy链接提取器，并遵循为真(递归)。寻找一个解决方案，以设置时间限制爬行为每个网址在start_urls列表。谢谢 import scrapy class DmozItem(scrapy.Item): title = scrapy.Field() link = scrapy.Field() desc = scrapy.Field() class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"

浏览 39提问于2016-07-28得票数 1

3回答

以不同的方式使用刮伤处理分页站点

、、、、

我用python编写了一个脚本，使用scrapy解析网页中的一些信息。该网页中可用的数据通过分页遍历。如果我选择使用response.follow()，那么我就可以完成它。但是，我想遵循我在requests中实现的逻辑，BeautifulSoup在scrapy中实现，但是找不到任何概念。使用requests和BeautifulSoup，我可以想出这样的方法，它做得很好： import requests from bs4 import BeautifulSoup page = 0 URL = 'http://esencjablog.pl/page/{}/' while T

浏览 0提问于2018-04-20得票数 0

回答已采纳

3回答

将变量赋予具有产量的回调函数

、

在Scrapy 首先，我有两个函数：parse()被调用，parse_each()在parse()中被调用 class UtamapSpider(scrapy.Spider): def parse(self, response): yield scrapy.Request(url=each_url, callback=self.parse_each) def parse_each(self,response): 现在，我想向parse_each传递一些额外的参数。所以，我想做的就是这样。 class UtamapSpider(scrapy.Spider):

浏览 4提问于2021-12-17得票数 1

回答已采纳

1回答

运行多个CrawlSpider实例

、、

我刚刚开始使用刮伤，我想做以下几件事 Have a list of n domains i=0 loop for i to n Use a (mostly) generic CrawlSpider to get all links (a href) of domain[i] Save results as json lines 要做到这一点，蜘蛛需要接收它必须作为参数爬行的域。我已经成功地创建了CrawlSpider： from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider,

浏览 1提问于2018-02-26得票数 1

回答已采纳

1回答

Splash爬行Javascript网站

、、

我能够使用以下代码爬行Javascript呈现的页面： import scrapy from scrapy_splash import SplashRequest class QuotejscrawlerSpider(scrapy.Spider): name = 'quotejscrawler' def start_requests(self): yield SplashRequest( url = 'http://www.horsedeathwatch.com/', cal

浏览 0提问于2018-02-16得票数 0

回答已采纳

2回答

如何在scrapy中使用CrawlSpider处理http错误代码

、、

我正在尝试使用scrapy来测试一些网站及其子网站的http返回码，分别检测400和500范围内的错误。然而，另外，我也希望看到并处理300范围内的代码。我已经尝试了几天并查看了文档，但是我被卡住了，没有找到解决方案。谢谢你的帮助！跟随您将看到我使用CrawlSpider创建的爬行器。目标是在我的parse_item()函数的错误范围内查看/捕获http响应。我已经将handle_httpstatus_all = True添加到了settings.py中，但是除了HTTP_STATUS = 200之外，parse_item中没有其他内容。 import scrapy from scrapy

浏览 41提问于2019-02-14得票数 0

回答已采纳

1回答

刮完网站后没有数据

、、、

我想刮刮所有的名字从一个网站的使用Scrapy。这是在项目文件中。 import scrapy class ItwItem(scrapy.Item): name = scrapy.Field() 这是我的蜘蛛。 import scrapy from itw.items import ItwItem class ItwSpider(scrapy.Spider): name = 'itw' allowed_domains = ['https://www.internationaltelecomsweek.com']

浏览 1提问于2017-05-22得票数 0

回答已采纳

2回答

Scrapy和Instagram不返回任何内容

、、

我正在尝试从instagram图片中获取标签文本，例如：https://www.instagram.com/p/CHPoTitFdEz/，但是Scrapy没有返回任何内容。在我已经写过的Scrapy shell中： response.xpath('//span[@class=""]/a[@class="xil3i"]/text()').get() 或 response.xpath('//span[@class=""]/a[@class="xil3i"]/text()').extract() 这应

浏览 31提问于2020-11-28得票数 0

回答已采纳

1回答

刮伤能基于id向输入提交吗？

、、

我有一个包含多个输入字段的内联网页面，我需要Scrapy使用网页“搜索产品”输入字段进行搜索，它有一个"searchBox“id。我已经能够锁定正确的搜索框使用Scrapy和Beautiful，但我不知道如何将数据正确地传递回Scrapys表单提交功能。在方法1中，我尝试将结果简单地作为输入传递给Scrapys FormRequest.from_response函数，但是它不起作用。方法1-使用Scrapy查找数据 #Search for products def parse(self, response): ##Let's try search using s

浏览 0提问于2019-03-09得票数 1

1回答

如何获取scrapy.http.request.Request？

、

注意：，我已经通过了，我只是想知道fetch是如何工作的。使用scrapy shell，这段代码运行良好。 >>> import scrapy >>> url = 'http://quotes.toscrape.com/page/1/' >>> def parse(response): ... print('parse %s' % response) ... >>> req = scrapy.Request(url=url, callback=parse) >>>

浏览 2提问于2020-07-02得票数 0

1回答

每次运行相同的scrapy项目时，结果都不同

我对Scrapy非常陌生。我设法创建了一个Scrapy项目，运行它来抓取网站，并将废弃的信息保存在csv文件中。然而，每次我运行它，似乎被抓取的网页的数量和顺序都不同。我很确定这个网站在这段时间内是静态的。一般来说，这是正常的吗？

浏览 0提问于2014-03-08得票数 0

2回答

刮伤cnn.com搜索

、、

在使用Scrapy从cnn.com搜索结果中获取数据时，我遇到了问题。例如，我们在浏览器中有一个链接，它看起来很好。当我输入“view(Response)”时，Scrapy shell返回一些不满意的内容：“您的搜索与任何文档不匹配。尝试使用较少限制的搜索条件，也许我们可以找到一些东西。”我将从每个搜索结果页面获取所有链接，并解析适合给定查询的每一篇文章(本例中为“war”)。截图：我发现了一个与此相关的案例：，我的问题是否有相同的根源，而cnn.com却阻止了机器人？

浏览 0提问于2019-02-28得票数 0

回答已采纳

1回答

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

、、

这是一个简单的抓取蜘蛛 import scrapy class ExampleSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["https://www.dmoz.org"] start_urls = ('https://www.dmoz.org/') def parse(self,response): yield scrapy.Request(self.start_urls[0],callback=self.parse2)

浏览 1提问于2016-08-15得票数 8

回答已采纳

2回答

"download_slot“是如何在刮伤中工作的

、、、

我在scrapy中创建了一个脚本，从它的登陆页面解析不同帖子的author name，然后使用meta关键字将它传递给parse_page方法，以便同时打印post content和author name。我在meta关键字中使用了download_slot，据称这会使脚本运行得更快。虽然没有必要遵守我在这里尝试应用的逻辑，但我只想坚持它，只想了解download_slot在任何脚本中是如何工作的，以及为什么。为了了解更多关于download_slot的信息，我搜索了很多信息，但最后得到了一些链接，比如。 download_slot的一个示例用法(但我不太确定)： from scrapy.c

浏览 0提问于2019-04-26得票数 8

回答已采纳

1回答

TypeError: set_user_agent()接受两个位置参数，但给出了3个

、、

我正在学习欺骗头的教程，但是在设置了set用户代理功能之后，终端显示了一个错误。 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class BestMoviesSpider(CrawlSpider): name = 'best_movies' allowed_domains = ['imdb.com'] user_agent = 'Mozilla/5.0 (Wi

浏览 4提问于2021-07-26得票数 0

回答已采纳

2回答

保存Scrapy 'start_urls‘并将其正确存储在数据帧中

、、、

我正在使用刮刮一些网站的数据。但我无法正确地获得我的数据。这是我的代码的输出(参见下面的代码)：在命令行中： scrapy crawl myspider -o items.csv 输出： asin_product product_name ProductA,,,ProductB,,,ProductC,,, BrandA,,,BrandB,,,BrandC,,, ProductA,,,ProductD,,,ProductE,,, BrandA,,,BrandB,,,Br

浏览 0提问于2019-04-01得票数 0

回答已采纳

2回答

如何在Scrapy中抓取多个级别的页面到一个项目？

、

我发现的所有Scrapy示例都谈到了如何抓取单个页面，或者如何抓取多个级别的页面，当每个最深的页面被保存为一个独立的Item时。但我的情况有点复杂。例如，网站结构是： A (List page of books) --> B (Book summary page) ----> C (Book review pages) ----> D (Book download pages) 因此，Item的定义如下所示： class BookItem(scrapy.Item): name = scrapy.Field() type = scrapy.Field()

浏览 6提问于2021-07-30得票数 1

回答已采纳

1回答

如何将Python用于myltiple URL的

、

我的问题类似于这篇文章：我要我的爬虫遍历所有的“下一个”链接。我已经搜索了很多，但大多数人只关注如何解析ULR，或者简单地将所有URL放在初始URL列表中。到目前为止，我能够访问第一页并解析下一页的链接。但我不知道如何使用相同的爬虫(蜘蛛)访问那个页面。我尝试将新的URL添加到我的URL列表中，它确实附加了(我检查了长度)，但后来它没有访问链接。我不知道为什么..。注意，在我的例子中，我只知道第一页的URL。第二页的URL只能在访问第一页之后才能获得。同样，(i+1)第四页的网址隐藏在第一页中。在解析函数中，我可以解析并打印正确的下一页链接URL。我只是不知道怎么去看看。请帮帮我。

浏览 0提问于2017-06-16得票数 0

回答已采纳