使用scrapy生成多个起始点请求

使用Scrapy生成多个起始点请求是一种在网络爬虫中常用的技术，它允许我们同时从多个URL开始爬取数据。下面是一个完善且全面的答案：

在Scrapy中，可以通过编写一个Spider类来实现生成多个起始点请求。Spider类是Scrapy框架中的核心组件，用于定义爬取网站的规则和逻辑。

首先，我们需要创建一个新的Scrapy项目，并在项目中创建一个Spider类。在Spider类中，我们可以通过重写start_requests方法来生成多个起始点请求。

start_requests方法是Spider类的一个默认方法，用于生成初始的请求对象。我们可以在该方法中使用yield关键字返回多个Request对象，每个Request对象代表一个起始点请求。

以下是一个示例代码：

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    
    def start_requests(self):
        urls = [
            'http://www.example.com/page1',
            'http://www.example.com/page2',
            'http://www.example.com/page3',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)
    
    def parse(self, response):
        # 在这里编写解析响应的逻辑
        pass

在上面的示例代码中，我们创建了一个名为my_spider的Spider类。在start_requests方法中，我们定义了一个包含多个URL的列表urls。然后，我们使用yield关键字返回了多个Request对象，每个对象都使用了相同的回调函数parse。

在parse方法中，我们可以编写解析响应的逻辑，例如提取数据、跟进链接等。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云云服务器（CVM）：提供弹性计算能力，满足各类业务需求。产品介绍链接
腾讯云云数据库MySQL版：高性能、可扩展的关系型数据库服务。产品介绍链接
腾讯云对象存储（COS）：安全、稳定、低成本的云端存储服务。产品介绍链接
腾讯云人工智能（AI）：提供丰富的人工智能服务和解决方案，助力业务创新。产品介绍链接
腾讯云物联网（IoT）：提供全面的物联网解决方案，连接和管理物联设备。产品介绍链接
腾讯云区块链服务（BCS）：提供一站式区块链服务，降低区块链应用开发和运维成本。产品介绍链接
腾讯云视频处理（VOD）：提供视频上传、转码、剪辑、播放等一系列视频处理服务。产品介绍链接
腾讯云音视频通信（TRTC）：提供高品质、低延迟的实时音视频通信服务。产品介绍链接

以上是关于使用Scrapy生成多个起始点请求的完善且全面的答案，希望能对您有所帮助。

Google的距离矩阵api

、、、

我正在使用谷歌距离矩阵API。但是我无法计算出API的成本，它已经在他们的网站上写了“每个元素的价格”。那么，如果我有两个起点和1000个目的地，那么我的总API成本是多少?使用Google OR tools的示例程序是否足以运行1000个目的地距离的API调用并求解矩阵？请帮帮我！！

浏览 11提问于2020-05-12得票数 1

1回答

我可以用scrapy创建cookie，但无法修改现有的cookie。在我正在工作的电子商务网站中，这个cookie处理邮政编码，每个页面都使用这个邮政编码来修改产品属性。我可以使用selenium修改邮政编码，抓取每一页，但抓取过程太慢。我只想使用scrapy，修改这个请求/响应邮政编码cookie。我可以使用下面的代码根据我的请求创建cookie 在SETTINGS.PY中COOKIES_ENABLED = True 在spider.py yield scrapy.Request(response.urljoin(url)，self.parsePage，cookies={'cp&#

浏览 4提问于2020-10-03得票数 0

1回答

Scrapy:重复的项目字段，因为有多个for循环

、

我的问题与几乎完全相同但是我有两个For循环，所以创建一个新的条目将导致我丢失第一个刮过的页面中的数据。基本结构是：知道第一个网址。循环通过已知的urls - For loop for data and next url - For loop for more data and next url - Even more data and next url. - Even more data and next url. - Yield 每页有10-40条数据，但我有一个简单的代码，它可以查找1-2个数据。

浏览 0提问于2019-08-20得票数 0

回答已采纳

1回答

Scrapy没有进入解析函数。

、、、

我正在运行下面的蜘蛛，但是它没有进入解析方法，我不知道为什么，请有人帮忙。我的代码在下面 from scrapy.item import Item, Field from scrapy.selector import Selector from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class MyItem(Item): reviewer_ranking = Field() print "as

浏览 0提问于2014-06-24得票数 2

回答已采纳

1回答

Python Scrapy - Selenium -请求下一页

、、

我试图使一个网络爬虫，去一个链接，并等待Javascript内容加载。然后，在进入下一页之前，它应该获得所有指向列出的文章的链接。问题是它总是从第一个url ("")抓取，而不是遵循我给它的url。为什么下面的代码不能从我在reqeusts中传递的新urls中抓取？我没主意了. import scrapy from scrapy.http.request import Request from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver

浏览 2提问于2017-06-14得票数 1

2回答

重置Scrapy中的cookie而不禁用它们

、、

我使用CrawlSpider爬行一个网站。网站用饼干检测到我的蜘蛛。如果我禁用它们，它也会检测到我是一个机器人。因此，如何在每个请求中使用新的cookie。我的蜘蛛很简单： # -*- coding: utf-8 -*- import scrapy import requests from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class ExampleSpider(CrawlSpider): name = 'example'

浏览 1提问于2017-08-22得票数 0

回答已采纳

1回答

scrapy 503服务在starturl上不可用

、、、

我修改了这个蜘蛛，但它产生了错误 Gave up retrying <GET https://lib.maplelegends.com/robots.txt> (failed 3 times): 503 Service Unavailable 2019-01-06 23:43:56 [scrapy.core.engine] DEBUG: Crawled (503) <GET https://lib.maplelegends.com/robots.txt> (referer: None) 2019-01-06 23:43:56 [scrapy.downloadermid

浏览 0提问于2019-01-07得票数 2

回答已采纳

1回答

使用Scrapy解析文档

、、、

我有一个问题，我想解析一个网站，并从它抓取每个文章的链接，但问题是Scrapy没有抓取所有的链接和抓取其中的一些随机次数。 import scrapy from tutorial.items import GouvItem class GouvSpider(scrapy.Spider): name = "gouv" allowed_domains = ["legifrance.gouv.fr"] start_urls = [ "http://www.legifrance.gouv.fr/affichCo

浏览 3提问于2016-02-03得票数 0

3回答

Scrapy是单线程还是多线程？

、、、

在Scrapy中几乎没有并发设置，比如。这是否意味着Scrapy crawler是多线程的？所以如果我运行scrapy crawl my_crawler，它会同时并行地触发多个请求吗？我问这个是因为，我读到过Scrapy是单线程的。

浏览 0提问于2014-07-15得票数 17

2回答

scrapy.Request不返回标题

、

我是Scrapy的新手，试着用它来练习爬行网站。然而，即使我遵循本教程提供的代码，它也不返回结果。看起来yield scrapy.Request不起作用。我的代码如下： Import scrapy from bs4 import BeautifulSoup from apple.items import AppleItem class Apple1Spider(scrapy.Spider): name = 'apple' allowed_domains = ['appledaily.com'] start_urls =['htt

浏览 8提问于2017-07-10得票数 1

回答已采纳

1回答

使用新URL再次调用scrapy

、、、

这是我的蜘蛛，它正在工作，但是，我怎么能发送另一个蜘蛛在新发现的网址。现在，我正在存储以HTTP、HTTPS开头的所有链接，或者如果是/，则添加基本URL。然后，我将迭代这个数组，并在新URL上调用一个新的蜘蛛(它位于代码的末尾) 我不能在新的URL上刮擦(我知道因为print()没有显示在控制台上) import scrapy import re class GeneralSpider( scrapy.Spider ): name = "project" start_urls = ['https://www.url1.com/',

浏览 1提问于2018-08-13得票数 0

回答已采纳

1回答

如何从另一个脚本解析字符串到蜘蛛

、、、

我对python和scrapy很陌生。我正在使用子进程module.But从另一个python脚本运行scrapy-ctl.py，我想从这个脚本itself.Is将‘start_urls’解析为蜘蛛，它可以将start_urls(在运行scrapy的脚本中确定)解析到蜘蛛？我很乐意就这方面提出任何建议或意见。)。提前感谢..。

浏览 4提问于2010-07-05得票数 0

2回答

使用Scrapy抓取递归页面数据

、、

我正在尝试使用python和Scrapy从中抓取商店位置数据。我已经设法抓取了单个页面，但我想将其设置为遍历链接末尾的1000个递归id的列表。任何帮助都将不胜感激。免责声明:我不知道我在做什么 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from subway.items import SubwayFinder class MySpider(BaseSpider): name = "subway" allowed_domains = ["htt

浏览 0提问于2014-02-13得票数 0

1回答

使用Scrapy仅跟踪子链接

我刚接触Scrapy，我不知道如何告诉它只遵循当前url的子页面的链接。例如，如果您在这里： www.test.com/abc/def 然后我想让scrapy跟着： www.test.com/abc/def/ghi www.test.com/abc/def/jkl www.test.com/abc/def/* 但不是： www.test.com/abc/* www.test.com/* 或任何其他的域名。

浏览 0提问于2013-11-03得票数 0

1回答

使用scrapy抓取多个页面

、、

我试图使用刮除多个网页。这些页面的链接如下： http://www.example.com/id=some-number 在下一页中，最后的数字减少了1。因此，我试图建立一个蜘蛛，导航到其他网页，并擦伤他们也。下面给出了我的代码： import scrapy import requests from scrapy.http import Request URL = "http://www.example.com/id=%d" starting_number = 1000 number_of_pages = 500 class FinalSpider(scrapy.Spide

浏览 2提问于2015-01-05得票数 1

回答已采纳

1回答

刮擦防止跨计划访问相同的URL

、

我计划将一个Scrapy蜘蛛部署到ScrapingHub，并使用调度特性每天运行该蜘蛛。我知道，默认情况下，Scrapy不访问相同的URL。但是，我想知道这种重复的URL避免是否在ScrapingHub的计划开始时是持久的？以及我是否可以设置它，以便Scrapy在预定的启动过程中不会访问相同的URL。

浏览 2提问于2018-05-24得票数 1

回答已采纳

2回答

使用Scrapy shell向网站发送请求时出错

、、、、

我在学习Scrapy框架。我试着用刮壳。在那里，我试图从“”中获取响应。 python -m scrapy shell 在外壳内部- >> from scrapy import Request >> req = Request("https://quotes.toscrape.com/") >> fetch(req) 然后我发现错误是这样的- PS D:\Projects\scrapyLearn\introSpider\introSpider> python -m scrapy shell 2022-11-30 15:04:52 [sc

浏览 44提问于2022-11-30得票数 -1

回答已采纳

1回答

Scrapy不再工作-扭曲超时

、、、

由于某种原因，Scrapy将不再在我的机器上运行。我试着升级scrapy，卸载它，重新安装它，但都没有成功。有谁能解释一下这件事吗？下面是跟踪信息： Slevins-iMac:goodstuff slevin$ scrapy crawl chees 2017-01-28 18:20:38 [scrapy.utils.log] INFO: Scrapy 1.3.0 started (bot: goodstuff) 2017-01-28 18:20:38 [scrapy.utils.log] INFO: Overridden settings: {'NEWSPIDER_MODULE

浏览 4提问于2017-01-29得票数 0

1回答

刮擦-等待所有请求完成

、

我刚刚开始使用scrapy，并且我试图在产生JSON结果时刮掉几个链接。很简单，但我的问题是请求的异步性。我很难找到合适的结构来实现这一点。在下面的代码中，除了解析方法末尾的yield Items之外，所有内容都运行良好。在完成任何/所有请求之前，将对此值进行处理。是否有一种方式可以说“等待所有请求完成”然后屈服。还是一种“在完成时刮擦”的方法，我可以检索最终的结果？ class SpiderCrawler(scrapy.Spider): name = "spiderman" allowed_domains = ["mywebsite.com"

浏览 3提问于2015-07-16得票数 2

回答已采纳

1回答

当请求同时运行时，刮擦过写结果？

、

我一直在运行一个刮板，并注意到它正在返回重复的结果。换句话说，它是为来自另一项的项分配结果。我的设置文件有CONCURRENT_REQUESTS = 100，没有设置DOWNLOAD_DELAY。这是我的蜘蛛密码： def start_requests(self): settings = get_project_settings() ids = settings.get('IDS', None) for i, id in enumerate(ids): yield FormRequest( url=self._

浏览 4提问于2017-01-29得票数 0

回答已采纳

1回答

Scrapy:为响应设置cookie(不来自请求)

、、、、

我需要提取一些美元货币的工资，但我访问的页面从另一个国家，然后，货币显示是当地(里尔)一个而不是美元。因此，我要发送cookie请求一个新的货币和一个新的国家。在“设置”中： COOKIES_ENABLED = False COOKIES_DEBUG = True 在我使用的蜘蛛中： class HtSpider(scrapy.Spider): name = 'sells' allow_domain = ['hattrick.org'] def start_requests(self): urls = ['ht

浏览 0提问于2021-01-05得票数 0

1回答

如何将所有CPU核心用于Scrapy

不管我怎么使用CONCURRENT_REQUESTS，我的scrapy程序只使用一个CPU核心。scrapy中的一些方法是否可以在一个scrapy爬虫中使用所有的cpu核心？ ps:它似乎在早期版本中有争议的max_proc使用，但我现在找不到它。

浏览 0提问于2017-07-10得票数 5

3回答

无法通过scrapy管道传递空url

、、

我有一个数据对象列表，每个对象都包含一个要抓取的url。其中一些urls是无效的，但我仍然希望数据对象能够到达条目管道。在@tomáš-linhart回复之后，我了解到在这种情况下使用中间件是行不通的，因为scrapy不允许我首先创建请求对象。如果url无效，另一种方法是返回item而不是request。以下是我的代码： def start_requests(self): rurls = json.load(open(self.data_file)) for data in rurls[:100]: url = data['

浏览 0提问于2017-09-22得票数 1

1回答

刮完网站后没有数据

、、、

我想刮刮所有的名字从一个网站的使用Scrapy。这是在项目文件中。 import scrapy class ItwItem(scrapy.Item): name = scrapy.Field() 这是我的蜘蛛。 import scrapy from itw.items import ItwItem class ItwSpider(scrapy.Spider): name = 'itw' allowed_domains = ['https://www.internationaltelecomsweek.com']

浏览 1提问于2017-05-22得票数 0

回答已采纳

1回答

抓取嵌套urls

、

我是scarpy嵌套的url使用CrawlSpider，但抓取爬行项目后，侧边查找错误： yield request(url=urls,callback=self.parse_netsted_item) TypeError: 'module' object is not callable carspider.py: # -*- coding=utf-8 -*- from __future__ import absolute_import from scrapy.linkextractors import LinkExtractor from scrapy.spiders

浏览 2提问于2016-05-20得票数 0

回答已采纳

2回答

scrapy无法进行Request()回调

、

我试着用Scrapy做递归解析脚本，但是Request()函数没有调用回调函数Scrapy，也没有回调suppose_to_parse()中提供的任何函数。我尝试了不同的变体，但它们都不起作用。去哪里挖？ from scrapy.http import Request from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class joomler(BaseSpider): name = "scrapy" allowed_domains = [&

浏览 0提问于2013-03-23得票数 3

回答已采纳

3回答

刮刮并发策略

、、、

有什么更好的方法来衡量刮伤？通过运行一个scrapy进程和增加CONCURRENT_REQUESTS内部Scrapy的设置通过运行多个scrapy进程，但仍然侧重于增加内部设置。通过增加scrapy的数量，使之具有一定的内部设定值。如果是3-那么哪个软件更适合用于启动多个刮擦过程？在多个服务器之间分发scrapy的最佳方法是什么？

浏览 2提问于2014-07-11得票数 13

1回答

递归地调用不同的URL，等待第一个站点完成使用scrapy的刮取

、、、

我想知道是否有一种方法可以递归地调用多个站点，使其更具动态性。我的老师要求有一个以上的抓取网站。这就是我所拥有的。 def start_requests(self): yield scrapy.Request("http://www.tripadvisor.in/Hotel_Review-g1009352-d1173080-Reviews-Yercaud_Rock_Perch_A_Sterling_Holidays_Resort-Yercaud_Tamil_Nadu.html", self.parse) yield scrapy.Request("htt

浏览 5提问于2015-07-24得票数 0

回答已采纳

3回答

CrawlSpider如何知道如何处理已生成的请求对象？

、

在Scrapy文档中，此代码用于说明如何将信息传递给回调函数。我的问题是，这个代码中的CrawlSpider类是如何执行生成的请求对象的？这是简单的编码行为吗？此外，是否使用yield而不是return来保持函数运行，并准备好在刮多个urls时接受更多的Response对象？如果只刮掉一个url，返回Request对象的效果会一样好吗？如果这些都是基本问题，我很抱歉，我以前没有使用过Python或Scrapy。 def parse(self, response): request = scrapy.Request('http://www.example.com/index.ht

浏览 4提问于2022-06-11得票数 0

回答已采纳

1回答

刮伤请求不回调。

、、、、

我正在尝试创建一个蜘蛛，它从csv (两个链接和每个行的名称)获取数据，并从每个链接中抓取一个简单的元素(price)，返回每一行的一个项目，该项目的名称是csv中的名称，以及两个被刮掉的价格(每个链接一个)。除了返回价格(将从每个请求的回调函数中返回)之外，一切正常工作，我得到一个请求对象，如下所示： <获取>. 回调函数根本不被调用，为什么？这是蜘蛛： f = open('data.csv') f_reader = csv.reader(f) f_data = list(f_reader) parsed_data = [] for product in

浏览 0提问于2016-07-18得票数 0

回答已采纳

1回答

由于Meta Refresh引起的刮伤问题

、、

我是新的Scrapy框架和试图抓取一个网站使用蜘蛛。在我的网站中，当我从页面1 ->页面2导航时，中间页面添加了Meta，它将它重定向到第2页。然而，在重定向时，我不断地得到错误302。我试着做了一些事情将用户代理设置为"Mozilla/5.0 (WindowsNT6.1) AppleWebKit/537.36 (KHTML，类似壁虎) Chrome/56.0.2924.87 Safari/537.36“ 设置DOWNLOAD_DELAY = 15 设置REDIRECT_MAX_METAREFRESH_DELAY = 100 但是我没有成功。我对Scrapy很陌生。如果有人能帮

浏览 2提问于2017-02-17得票数 0

回答已采纳

1回答

Scrapy spider在队列中监听要抓取的种子urls？

、

让Scrapy爬虫在SQS队列(或其他队列)上监听新的种子URL爬行的方法是什么？在文档中找不到任何示例，所以我想这里可能有人知道。提前谢谢。编辑：这可能是start_requests的正确位置吗？ class MySpider(scrapy.Spider): name = 'example.com' allowed_domains = ['example.com'] def start_requests(self): # read requests from queue here? while

浏览 16提问于2019-01-15得票数 0

回答已采纳

1回答

如何使用Scrapy从多个链接页中抓取和刮取一组数据

、

我想要做的是刮取公司的信息(thisisavailable.eu.pn/company.html)，并将所有董事会成员的数据从不同的页面中添加到董事会中。因此，理想情况下，我从示例页面获得的数据应该是： { "company": "Mycompany Ltd", "code": "3241234", "phone": "2323232", "email": "info@mycompany.com", "board

浏览 0提问于2017-03-06得票数 0

1回答

如何使用Scrapy1.4.0从javascript中刮取数据？

、

对不起我的英语。我刚开始学刮痕，我需要一些指导。我在刮掉一些网站时遇到了问题。这是我的蜘蛛 import scrapy from bs4 import BeautifulSoup as bs class SomeSiteSpider(scrapy.Spider): name = 'somesite' def start_requests(self): urls = [ 'http://somesite.ru/proxies/' ] for url in urls:

浏览 2提问于2017-05-20得票数 0

回答已采纳

1回答

使用FormRequest.from_response()的简陋登录即使使用标头也会返回412错误

、、、

登录(沃尔玛)在使用FormRequest.from_response()时返回412错误。 412描述了前提条件中的一些错误，因此我尝试手动传递所有标头。没有起作用。我也试过传递曲奇，还是不起作用。上述网站有表单，但它将它的值传递给它的登录API，所以我尝试使用postman向API的url发出POST请求，它确实起作用了，将想法转移到Scrapy，没有起作用，而且，使它违背了刮板的目的，在登录时使用网站的功能，因为它可能不会重定向到网站。 def parse(self, response): cookie = response.headers.getlist('S

浏览 235提问于2019-10-16得票数 0

1回答

刮痕爬行不爬行任何网址

、

这是我的第一个蜘蛛密码。当我在cmd中执行这段代码时。日志显示urls甚至没有被爬行，并且其中没有调试消息。在任何地方都找不到解决这个问题的办法。我不明白是怎么回事。有人能帮我做这个吗。我的代码： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes_spider" def start_request(self): urls = ["http://quotes.toscrape.com/page/1/", "h

浏览 1提问于2021-06-19得票数 1

回答已采纳

1回答

我试图将我的刮伤结果输出到csv文件，但是输出始终是空的

、、、

这是我的主要蜘蛛bathuni.py from scrapy.spider import Spider from scrapy.selector import Selector from bathUni.items import BathuniItem class bathuni(Spider): name = "bathU" allowed_domains = ["http://international.southwales.ac.uk/"] start_urls= ["http://international.southw

浏览 7提问于2014-02-26得票数 1

回答已采纳

2回答

抓取简历不会抓取任何东西，只会完成。

、

我用一个CrawlSpider派生类开始爬行，然后用Ctrl+C暂停它。当我再次执行命令以恢复它时，它不会继续。我的“开始和恢复”命令： scrapy crawl mycrawler -s JOBDIR=crawls/test5_mycrawl Scrapy创建文件夹。权限为777。当我继续爬行时，它只输出： /home/adminuser/.virtualenvs/rg_harvest/lib/python2.7/site-packages/twisted/internet/_sslverify.py:184: UserWarning: You do not have the servi

浏览 0提问于2014-11-21得票数 2

回答已采纳

1回答

Python Scrapy Parse与另一个函数提取的链接

、、、

我刚开始刮黄页，为了学习的目的，一切都很好，但我想要电子邮件地址，但要做到这一点，我需要访问解压在解析中的链接，并使用另一个parse_email函数解析它，但它不能工作。我的意思是，我测试了parse_email函数--它可以工作，但是它不能从主解析函数内部工作，我希望parse_email函数获得链接的源代码，所以我使用回调调用parse_email函数，但是它只返回类似于这些<GET https://www.yellowpages.com/los-angeles-ca/mip/palm-tree-la-7254813?lid=7254813> 的链接，在那里它应该返回电子邮

浏览 1提问于2017-03-13得票数 4

回答已采纳

1回答

注册后开始爬行

、、、、

免责声明:我正在爬行的网站是一个公司内部网，为了公司隐私，我对网址做了一些修改。我设法登录到这个网站，但是我没能爬上这个网站。从start_url 开始(这个站点将指向一个具有更复杂url的类似站点：即 {unid=ADE682E34FC59D274825770B0037D278}) 对于包括start_url在内的每一页，我想抓取在//li/<a>下找到的所有href (对于它爬行的每一页，都会有大量可用的超链接，其中一些链接将复制，因为您可以访问同一页面上的父站点和子站点。正如您可能看到的，当我们爬入该页面时，href并没有组合实际的链接(上面引用的

浏览 1提问于2015-07-27得票数 0

2回答

如何在Scrapy中抓取多个级别的页面到一个项目？

、

我发现的所有Scrapy示例都谈到了如何抓取单个页面，或者如何抓取多个级别的页面，当每个最深的页面被保存为一个独立的Item时。但我的情况有点复杂。例如，网站结构是： A (List page of books) --> B (Book summary page) ----> C (Book review pages) ----> D (Book download pages) 因此，Item的定义如下所示： class BookItem(scrapy.Item): name = scrapy.Field() type = scrapy.Field()

浏览 6提问于2021-07-30得票数 1

回答已采纳

1回答

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

、、

这是一个简单的抓取蜘蛛 import scrapy class ExampleSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["https://www.dmoz.org"] start_urls = ('https://www.dmoz.org/') def parse(self,response): yield scrapy.Request(self.start_urls[0],callback=self.parse2)

浏览 1提问于2016-08-15得票数 8

回答已采纳

2回答

(Python3)蜘蛛必须返回请求，BaseItem，dict或None，得到“生成器”

、、

我正在编写一个很粗糙的脚本，从的NYT博客中提取最新的博客文章。该项目进展顺利，但是，当我进入实际尝试提取数据的阶段时，我仍然会遇到同样的问题： ERROR: Spider must return Request, BaseItem, dict or None, got 'generator' in <GET https://krugman.blogs.nytimes.com/more_posts_jsons/page/1/?homepage=1&apagenum=1> 我正在使用的代码如下： from scrapy import http from scr

浏览 3提问于2017-09-11得票数 6

回答已采纳

3回答

如何在没有回调的情况下从scrapy.Request获得响应？

、、

我想发送一个请求并等待来自服务器的响应，以便执行与操作相关的操作。我写了以下内容 resp = yield scrapy.Request(*kwargs) 却没有得到任何帮助。在文档中，我发现需要使用call_back函数，但是这个函数在处理下一个命令之后调用。如何等待服务器的响应？

浏览 1提问于2018-09-05得票数 6

回答已采纳

1回答

刮伤的request.priority不起作用

、

正式文档对scrapy.Request.priority的解释如下：优先级(int) -此请求的优先级(默认为0)。调度程序使用优先级来定义用于处理请求的顺序。优先级较高的请求将更早地执行。为了表示相对较低的优先级，允许使用负值. 但我的测试不是这样的： scrapy version: 2.6.2 Python version: 3.7.13 class TestSpider(scrapy.Spider): name = 'test' custom_settings = { 'DOWNLOAD_DELAY': 5,

浏览 3提问于2022-07-26得票数 0

1回答

Scrapy请求被重定向到错误的页面

、、、、

我正在尝试访问的详细信息页面要从web访问，请单击1. Consula Titlulo。2.从Minerals下拉列表中选择ORO，然后3.单击Buscar。4.然后单击列表中的第一项。开发工具和Fiddler显示，我应该作出POST请求与项目id作为有效负载，然后这个POST请求被重定向到详细信息页面。在我的情况下，我被重定向到主页。我错过了什么？这是我的挠性蜘蛛。 # -*- coding: utf-8 -*- import scrapy from scrapy.shell import inspect_response class CodeSpider(scrapy.Spi

浏览 1提问于2018-08-23得票数 0

回答已采纳

1回答

是否有最好的方法在同一领域的不同结构中刮除多个页面？

、

我想刮一些页面在同一个领域，但不同的结构，与刮痕。 http://example.com/page1 http://example.com/page2 http://example.com/page3 我找到了这个答案现在用了这个。(通过辩论对我来说是可以理解的) def start_requests(self): #This refers scrapy tutrials urls = [ 'http://example.com/page1', ] for url in urls:

浏览 0提问于2017-08-29得票数 0

回答已采纳

1回答

在页面中刮页有时不会进入第二页

、、

我在这里使用以下蜘蛛： import scrapy questions = {} class SovSpider(scrapy.Spider): name = 'StackOverflow' allowed_domains = ['stackoverflow.com'] start_urls = ['https://stackoverflow.com/questions'] def parse(self, response): for link in response.css('a.q

浏览 0提问于2018-06-12得票数 0

回答已采纳

2回答

scrapy ratemyprofessor

、

我刚接触scrapy，已经在这个简单的程序上花了很多时间，但我搞不懂。我使用chrome检查此页面中所有教授的链接的x路径，并使用控制台测试xpath。当我把“正确的xpath”放在爬虫里面，它将不再工作，链接的大小返回0“我很困惑now.Could有人能帮我吗？ import scrapy from scraper.items import ScraperItem from scrapy.contrib.spiders import Rule from scrapy.contrib.linkextractors import LinkExtractor class scraperSpi

浏览 4提问于2016-03-18得票数 0

1回答

场景中物体的位置

游戏对象的层次结构如下所示。 Display(Scene) Model(-4.708, 1.55, 14.4277) Pass(4.7080, -1.5, -14.42) handle(-0.0236,0.65690,0.149) shaft(5.34,-1.0225,-0.1489) head(-7.0912,-9.62,-0.5231) ball(0,0,0) 我们可以看到模型和它在图像上的坐标。球有位置(0,0,0)，但为什么它位于模型的底部？我怎么才能把球定位在头边呢？

浏览 1提问于2017-09-16得票数 0

回答已采纳