Scrapy:如何获取urls列表并在之后遍历它们

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地抓取网页数据。它提供了强大的工具和机制，使得开发者可以方便地定义爬取规则、处理页面内容、跟踪链接等。

要获取urls列表并在之后遍历它们，可以按照以下步骤进行：

创建一个Scrapy项目：使用命令行工具创建一个新的Scrapy项目，例如：
创建一个Scrapy项目：使用命令行工具创建一个新的Scrapy项目，例如：
定义爬虫：在项目中创建一个爬虫文件，例如spiders/myspider.py，并在其中定义一个爬虫类。在这个类中，可以使用start_urls属性来设置初始的URL列表，例如：
定义爬虫：在项目中创建一个爬虫文件，例如spiders/myspider.py，并在其中定义一个爬虫类。在这个类中，可以使用start_urls属性来设置初始的URL列表，例如：
编写解析函数：在爬虫类中编写一个解析函数，用于处理每个页面的内容。可以使用Scrapy提供的选择器（Selector）来提取所需的数据，例如：
编写解析函数：在爬虫类中编写一个解析函数，用于处理每个页面的内容。可以使用Scrapy提供的选择器（Selector）来提取所需的数据，例如：
运行爬虫：使用命令行工具在项目根目录下运行爬虫，例如：
运行爬虫：使用命令行工具在项目根目录下运行爬虫，例如：

通过以上步骤，Scrapy将会获取初始的URL列表，并依次遍历这些URL发送请求并处理页面内容。在实际应用中，可以根据需要进行更复杂的数据提取、处理和存储操作。

腾讯云提供了一系列与云计算相关的产品和服务，例如云服务器、云数据库、云存储等。具体推荐的产品和产品介绍链接地址可以根据实际需求和使用场景进行选择。

Scrapy:如何获取urls列表并在之后遍历它们

scrapy

我是python和scrapy的新手，看过一些udemy和youtube教程，现在正在尝试我自己的第一个示例。我知道如何循环，如果有下一步按钮的话。但在我的情况下，没有。这是我的代码，在其中一个url上工作，但是开始url需要稍后更改： class Heroes1JobSpider(scrapy.Spider): # where我可以通过以下命令获取urls列表： start_urls = [&#x

浏览 15提问于2019-01-23得票数 1

回答已采纳

1回答

刮刮-刮擦时发现的刮擦链接

python、scrapy

我只能假设这是在Scrapy最基本的事情之一，但我只是不知道如何去做。基本上，我刮了一个页面来获得包含本周更新的urls列表。然后，我需要逐个进入这些urls，并从它们中获取信息。因此，我首先从第一个刮板中刮取urls，然后在第二个刮板上将它们硬编码为start_urls[]。做这件事最好的方法是什么？它是否像调用刮板文件中的另一个函数一样简单，该函数接受urls列表并在

浏览 3提问于2016-11-25得票数 0

回答已采纳

1回答

在同一进程中多次运行Scrapy

python-3.x、scrapy

我有一个URL列表。我想爬上每一个。请注意下面的代码是一个完整的、破碎的、可复制的示例。它基本上尝试循环遍历URL列表，并在每个URL上启动爬虫。这是基于文档的。from scrapy.utils.log import confi

浏览 0提问于2018-08-13得票数 2

回答已采纳

1回答

刮擦蜘蛛不返回任何信息

python、python-3.x、xpath、scrapy、scrapy-spider

它有将近500页，我用Python 3编写了一个Scrapy，它遍历每一个页面并将列表复制到字典中，但我无法计算出xpath或css来获取列表信息。= 1 'https://kit.com/brands?page=" + str(pageNumber) pageNumber += 1

浏览 0提问于2017-07-07得票数 3

回答已采纳

1回答

用Scrapy遍历网页请求URL的页面

scrapy、request

-58c6cf9f9808)改编为适用于https://tinyhouselistings.com/这个小型房屋列表网站。本教程使用请求URL来获取一个非常完整和干净的JSON文件，但仅针对第一个页面执行此操作。似乎循环浏览我121页的小房子列表请求url应该是相当简单的，但我还没能让任何东西工作。本教程不会遍历请求url的页面，而是使用scrapy splash，在Docker容器中运行以获取所有清单。我很愿意尝试一下，但我只是觉得应该可以遍历</

浏览 31提问于2020-04-26得票数 0

回答已采纳

1回答

刮除蜘蛛不返回项数据。

python-3.x、scrapy、scrapy-spider

我的scrapy脚本似乎没有遵循链接，最终没有从每个链接中提取数据(将一些内容作为scrapy items传递)。我正试图从一个新闻网站上搜集大量数据。我成功地复制/编写了一个蜘蛛，正如我所设想的那样，它应该从一个文件中读取链接(我用另一个脚本生成了它)，将它们放在start_urls列表中，然后按照这些链接开始提取一些数据，然后将其作为items传递在运行scrapy crawl PNS之后，脚本会遍历来自start_urls</

浏览 0提问于2019-01-29得票数 0

回答已采纳

1回答

在python中处理txt文件中的url，并以txt格式输出网页内容。

python、web-scraping、spyder

我有一个很大的域列表，输入txt文件，并希望处理它们，并将输出保存到txt文件。这是我的python脚本from scrapy.spider import BaseSpiderURL = 'http://%s' % DOMAIN class M

浏览 2提问于2017-02-02得票数 0

1回答

从一个网站抓取多个网页

python、scrapy、web-crawler

from scrapy.spider import BaseSpider name = "dmoz" start_urls = [ "www.dmoz.org我确实在里面放了多个urls，但是我没有从所有的urls

浏览 2提问于2012-04-15得票数 0

2回答

开始urls和域的Scrapy迭代

python-3.x、pandas、scrapy、scrapy-spider

我正在尝试从csv读取urls和域的列表，并让Scrapy爬行器遍历域的列表并启动urls，目标是通过我的管道将该域中的所有urls导出到csv文件中。import scrapyfrom scrapy.linkextractors import LinkExtractorfor domain in domainorgs:

浏览 2提问于2018-02-23得票数 0

回答已采纳

1回答

我试着用Scrapy从一个网站上抓取数据。我的密码怎么了？

python、web-scraping、scrapy、web-crawler

我使用xpath表达式response.xpath('//td/a/@href').getall()来获取每个播放器的相对urls列表。然后，我遍历相对urls的列表，并将它们与主页合并，得到一个名为"absolute_url“的变量，该变量对于一个播放器"”+/ players /63289/Brenden/ 来说是这样的。我在scrapy<

浏览 8提问于2022-09-19得票数 -1

1回答

如何打开一个包含urls列表的大型csv并抓取这些urls？

python、scrapy

我在本地机器上有一个很大的csv，它只包含一个urls列表，没有其他我想要抓取的列，并从每个urls中提取特定的css元素。我已经完成了一个测试，不看csv，只做一个一次性的开始url。我不知道如何打开一个包含一百万个urls的大型csv，让scrapy遍历每个urls，然后再转到下一个。import scrapy class stkSpider(scrap

浏览 3提问于2020-04-30得票数 0

2回答

多次解析

python、python-3.x、scrapy、web-crawler

My then -解析所有页面并将指向列表中所有文章的链接存储在列表中，然后迭代列表并解析链接。 name = "test" "https= []

浏览 0提问于2020-02-02得票数 2

回答已采纳

3回答

(刮起)如何从数百个网站的列表中刮除每个网站上的所有外部链接(并在Zyte上运行整个程序)？

web-scraping、scrapy、scrapinghub

我想使用Scrapy来编码一个通用的蜘蛛，它将从一个列表中抓取多个网站。我希望把这个列表放在一个单独的文件中，因为它很大。对于每个网站，蜘蛛将导航通过内部链接，并在每一页，它将收集每一个外部链接。最后，我想用以下字段导出CSV中的结果：但我不清楚我如何才能做到这一点，因为它缺少完整的

浏览 4提问于2021-11-09得票数 0

1回答

无法使用scrapy从网页中获取不同列表的标题

python、python-3.x、web-scraping、cookies、scrapy

我试图解析来自这个的不同列表的标题。标题不是动态的，因为它们在页面源中可用。但是，首先需要发送cookie来获取标题。我尝试了下面的方法来刮名单的标题，但它似乎不起作用。我到目前为止的尝试：from scrapy.crawler import CrawlerProcess ] def start_re

浏览 2提问于2020-07-12得票数 3

1回答

刮擦:在输出中保留刮过的项目的原始顺序。

python、scrapy

我有下面的Scrapy蜘蛛从文件url.txt中的urls列表中获取页面的状态from scrapy.contrib.spiders import CrawlSpider") f.close() def parse(self, responseclass StatusLinkItem(scrap

浏览 2提问于2015-05-12得票数 2

回答已采纳

1回答

我能用Scrapy提取这个XHR数据吗？

python、scrapy

我正在尝试用Scrapy从这个中提取数据。例如，我希望使用page=1遍历这些<a href=\"/@eberhardgross\">\n，比如前100个页面，并提取urls的每个实例。最终，只是尝试获取用户名，但是页面上还有其他<a href="">，但是如果我可以提取用户名，那就太好了，但是如果我必须获取所有的<a href="">，那就好了，我可以对它们进行排序，只获取

浏览 0提问于2019-12-18得票数 0

1回答

抓取爬行器只在类别的前5页爬行

scrapy

CrawlSpider：from scrapy.spiders import CrawlSpider, Rule # define thefields for your item here like: # name =

浏览 0提问于2017-11-01得票数 0

回答已采纳

2回答

刮伤在<div>标记中找不到

python、html、scrapy

我正在尝试刮的网站是在页面的html标记中，有一个带有class=“行列表-列表”的div标记。我试图在div标记中获取段落标记，但是Scrapy似乎找不到这个标记。我已经检查过任何未关闭的标签，但它们似乎都关闭了。那么为什么Scrapy不能拿这个标签呢？Scrapy可以获取的最内部标记是div class=“细分列表”，它位于div class=“行列表-列表”之外。另外，当我获取</e

浏览 2提问于2019-09-19得票数 1

1回答

如何在python脚本中使用scrapy的Spider和LinkExtractor？

python、web-scraping、scrapy

我找到了一些关于如何从任何网站提取所有可用链接的主题的答案，所有这些都是关于scrapy模块的。ALso复制了其中一个代码示例： from scrapy import Spider name = 'myspider' start_urls = ['http://webpage.com']

浏览 18提问于2019-06-16得票数 0

回答已采纳

1回答

如何将URL从蜘蛛导入蜘蛛？

python、scrapy

我正在构建一个Scrapy WuzzufLinks，它在这个链接：中抓取到作业网站中特定作业的所有链接。 name = 'WuzzufLinks' start_

浏览 3提问于2021-12-30得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy:如何获取urls列表并在之后遍历它们

相关·内容

Scrapy:如何获取urls列表并在之后遍历它们

刮刮-刮擦时发现的刮擦链接

在同一进程中多次运行Scrapy

刮擦蜘蛛不返回任何信息

用Scrapy遍历网页请求URL的页面

刮除蜘蛛不返回项数据。

在python中处理txt文件中的url，并以txt格式输出网页内容。

从一个网站抓取多个网页

开始urls和域的Scrapy迭代

我试着用Scrapy从一个网站上抓取数据。我的密码怎么了？

如何打开一个包含urls列表的大型csv并抓取这些urls？

多次解析

(刮起)如何从数百个网站的列表中刮除每个网站上的所有外部链接(并在Zyte上运行整个程序)？

无法使用scrapy从网页中获取不同列表的标题

刮擦:在输出中保留刮过的项目的原始顺序。

我能用Scrapy提取这个XHR数据吗？

抓取爬行器只在类别的前5页爬行

刮伤在<div>标记中找不到

如何在python脚本中使用scrapy的Spider和LinkExtractor？

如何将URL从蜘蛛导入蜘蛛？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐