文章/答案/技术大牛

发布

Web-Scraping:使用Scrapy移动到下一页以获取所有数据

Web-Scraping是一种自动化获取网页数据的技术，通过模拟浏览器行为，从网页中提取所需的信息。使用Scrapy框架可以方便地实现Web-Scraping，并且支持移动到下一页以获取所有数据。

Scrapy是一个基于Python的开源Web爬虫框架，它提供了强大的工具和方法来快速、高效地抓取网页数据。Scrapy使用了异步的方式进行网络请求和数据处理，能够同时处理多个请求，提高了爬取效率。

使用Scrapy进行Web-Scraping时，可以通过编写Spider来定义爬取的规则和流程。Spider是Scrapy的核心组件，它定义了如何抓取网页、提取数据以及跟踪链接。通过编写Spider，可以指定要爬取的起始URL、要提取的数据字段、要跟踪的链接等。

在移动到下一页以获取所有数据时，可以通过在Spider中编写相应的逻辑来实现。一种常见的做法是在Spider的回调函数中，解析当前页面的数据后，再发送请求获取下一页的数据。可以通过分析网页的URL规律，动态生成下一页的URL，并将其作为新的请求发送给Scrapy引擎。

Web-Scraping在实际应用中有很多场景，例如数据采集、信息监测、价格比较、舆情分析等。通过抓取网页数据，可以获取到大量的结构化信息，为后续的数据分析和业务决策提供支持。

腾讯云提供了一系列与Web-Scraping相关的产品和服务，例如云服务器、云数据库、云函数等。通过搭配使用这些产品，可以实现高效、稳定的Web-Scraping任务。具体产品介绍和相关链接如下：

云服务器（Elastic Compute Cloud，ECS）：提供可扩展的计算能力，用于部署和运行Scrapy爬虫。了解更多：云服务器产品介绍
云数据库（TencentDB）：提供高性能、可扩展的数据库服务，用于存储和管理爬取到的数据。了解更多：云数据库产品介绍
云函数（Serverless Cloud Function，SCF）：无需管理服务器的事件驱动型计算服务，可用于处理爬虫的数据解析和存储等任务。了解更多：云函数产品介绍

通过结合使用这些腾讯云产品，可以构建一个完整的Web-Scraping解决方案，实现高效、稳定的数据采集和处理。

Web-Scraping:使用Scrapy移动到下一页以获取所有数据

、、

我需要在亚马逊上抓取一个产品的所有评论： import scrapy from scrapy.cr

浏览 7提问于2020-08-03得票数 1

1回答

当页面是事件时，在页面之间移动

、

scrapy shell 'https://www.forever21.com/us/shop/catalog/category/f21/sale_women'#next_page = 你好，我试图在页面之间移动但是，页面是“事件”，它只是添加"#pageno=2&pageSize=120&filter=price:0,250“当转到下一页<

浏览 2提问于2019-10-24得票数 0

回答已采纳

2回答

我如何从有下一个按钮的网站刮擦，如果它滚动？

、

我正试着从一个叫做商示波器的网站上搜集所有的数据。但是，当我试图运行我的代码时，它只是得到一个随机引用。它至少应该从那个页面中获取所有的数据，但它只需要一个。另外，如果我从第1页得到数据，我想要的是从所有页面中获取数据。如何使用下一页中的

浏览 0提问于2019-04-15得票数 0

1回答

如何在python中使用selenium或scrapy点击“下一步”按钮

、、、、

我正在尝试使用scrapy从flipkart.com中抓取一些数据。除了翻到下一页，我什么都拿到了。首先，我尝试使用scrapy，然后使用selenium。实际上，一个类有上一页和下一页的两个链接。使用scrapy:我无法获取任何结果。我得到的是空白输出。使用selenium:每当我尝试点击下一页<

浏览 45提问于2021-02-10得票数 1

1回答

无法从scrapy中的所有页面获取数据

、、

我不能获取所有页面使用下面的代码，它只给出数据到第90页，然后显示分配错误。我正在使用下一步按钮url移动到下一页。但是在第90页之后，它给出了我在下面提到的错误。运行以下代码： import scrapy name = 'pagination&#

浏览 7提问于2020-10-15得票数 0

1回答

SCRAPY分页:无限滚动分页

、、

我正在尝试从中获取数据。我已经设法从网站的第一页抓取了数据。我哪里做错了？ 

浏览 1提问于2021-04-18得票数 0

1回答

我是Scrapy的新手，对Python也不是很熟悉。我已经设置了一个抓取器来从网站上抓取数据，但是虽然我使用的是代理，但如果同一个代理被使用太多次，那么我的请求就会显示一个页面，告诉我访问太多页面太快(HTTP状态代码200)。因为我的抓取器看到的是页面的状态代码为on，它找不到所需的数据并移动到下一页。我可以确定何时通过HtmlXPathSelector显示这些页面，但是我如何通知Scrapy重试该页面呢？

浏览 1提问于2013-03-25得票数 3

回答已采纳

2回答

scrapy -来自以下页面的数据

移动到下一页后如何下载数据？它只从第一页下载。我粘贴我的代码： # -*- coding: utf-8 -*-from scrapy.http import Request yield Request(absolute_next_page_url) 我只从第一

浏览 25提问于2019-03-21得票数 0

回答已采纳

1回答

使用scrapy获取“下一页”数据

、、

我需要抓取商品网站的评论数据，但它的用户数据是分页的，每页的.The评论是10条，大约有100页。我怎么才能把他们都爬出来？下面是关于“下一页”链接的Html代码： <div class="Pagecon"> <div class

浏览 4提问于2014-11-06得票数 0

回答已采纳

1回答

使用残缺的规则访问“下一页”

、、、

代码的目标是抓取一些亚马逊产品的数据，它是这样工作的：让我们以这个页面为例 https://www.amazon.com/s?k=mac+makeup&crid=2JQQNTWC87ZPV&sprefix=MAC+mak%2Caps%2C312&ref=nb_sb_ss_i_1_7 代码所做的是输入该页面的每个产品并从中获取数据，在完成从该页面中抓取所有数据后，它将移动到下一个页面(在本例中为第2

浏览 2提问于2019-06-04得票数 0

2回答

XHR请求拉取大量HTML内容，如何抓取/抓取？

、

我遵循了这个关于无限滚动网页的教程：https://blog.scrapinghub.com/2016/06/22/scrapy-tips-from-the-pros-june-2016 但是给出的示例看起来非常简单，它是一个有序的JSON对象，其中包含您想要的数据。在过去，我已经成功地使用正常的分页和由xpath指导的规则完成了这项工作。

浏览 38提问于2019-02-24得票数 0

回答已采纳

1回答

在jquery的pageshow事件中调用web api

、、、

我的index.html中有三个数据页。我在第一页的data-page的pageshow事件中调用一个web api，并填充列表视图。然后，通过点击该列表，itam获取该列表项的id并移动到下一页，并再次调用web api以在页面显示事件中获取该列表项的详细信息。然后，我再次从详细页转到第3页，以调用另一个api。这一切都工作得很好，但问题来了，当我移动到详细<e

浏览 3提问于2013-11-06得票数 0

1回答

抓取爬行器不会从所有页面收集数据。

、、

我正在使用Scrapy BaseSpider从一个网站收集数据。抓取器从产品展示页面开始，移动到“下一页”链接，从每个页面收集某些数据，并将其存储到CSV文件中。爬行器运行正常，但仅从第1页、第2页和最后一页(第36页)收集数据。在对代码进行了几个小时的修补之后，我找不出原因。下面的代码显示了我的爬行器。有什么建议吗？from scrapy.spider impo

浏览 0提问于2012-12-03得票数 1

1回答

Scrapy Splash单击带有javascript href的链接

、

我正在使用Scrapy Splash抓取一个包含如下元素的页面：第1页，共349页 1|2|3|4|5|6|7|8|9| 10 |下一步> 我想‘点击’锚与文本‘下一步’，并让javascript执行以获取下一页。': None, 'scrapy_fake_useragent.middleware.Rando

浏览 29提问于2019-02-16得票数 1

回答已采纳

1回答

如何使用Java单击列表中的链接

、、、、

我一直在努力为我的某个项目搜集数据。我在使用Selenium方面仍然是新手，但我已经能够完成基本的工作。我现在要做的是，程序单击上面的“下一步”链接，移动到下一页，以获取更多的数据。请帮帮忙。

浏览 0提问于2018-12-16得票数 1

回答已采纳

1回答

使用Scrapy从下一页获取数据

、、

这个想法是收集所有网页上所有房产的价格和一般信息。当我在Jupyter Notebook中使用Scrapy框架时，这是我到目前为止的代码： name = "quotes"#'pictures': quote.css('div.carousel__item-wrapper::text').extract()[2]这段代码在第一页</em

浏览 4提问于2020-03-12得票数 0

2回答

我想通过属性来标识特定的urls，但是如果感兴趣的属性是外文字符呢？

、、

我想使用Scrapy来递归地刮取数据--在下一个页面之后从一个页面中抓取数据。我的蜘蛛需要遵循“下一页”按钮。原则上，response.xpath("a[@title = 'next page']")可以识别“下一页”urls。然而，由于网站是中文()，我使用的选择器命令是response.xpath("a[@title = '下一

浏览 7提问于2015-10-18得票数 0

回答已采纳

1回答

Scrapy以任意顺序提取数据。

、、、、

有人可以告诉我为什么scrapy以任意顺序提取数据。我正试着在这一页上涂鸦。这个想法是从上到下提取所有的数据仓库，然后转到下一页并执行相同的操作。(至第20页) 我不知道为什么我只拿了一些房子，而且是按任何顺序。谢谢 from scrapy.item import Field,Item from scr

浏览 10提问于2019-06-26得票数 0

1回答

如何像iOS中的Pinterest应用程序一样刷新表格视图

、

我正在使用rest服务从服务器获取数据。当我获得所有数据后，我刷新表视图。我是一页一页地抓取数据，就像在Pinterest应用程序中一样，当表格视图使用滚动到达最后一行时，它会为下一页抓取数据。但是如果你看一下Pinterest应用程序，它非常流畅，并且没有jerk (可能是他们使用滚动而不是表格)，但在我的应用程序中，当获取<

浏览 4提问于2014-08-18得票数 0

2回答

使用scrapy递归地爬行站点

、、

这是我到目前为止基于编写的代码(原始代码根本不工作，所以我尝试重新构建它)from scrapy.linkextractorsimport LinkExtractorfrom scrapy.selector importHtmlXPathSelector from nettuts.items impor

浏览 2提问于2015-12-28得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Web-Scraping:使用Scrapy移动到下一页以获取所有数据

相关·内容

Web-Scraping:使用Scrapy移动到下一页以获取所有数据

当页面是事件时，在页面之间移动

我如何从有下一个按钮的网站刮擦，如果它滚动？

如何在python中使用selenium或scrapy点击“下一步”按钮

无法从scrapy中的所有页面获取数据

SCRAPY分页:无限滚动分页

如何在Scrapy中有条件地重试和重新整理当前页面？

scrapy -来自以下页面的数据

使用scrapy获取“下一页”数据

使用残缺的规则访问“下一页”

XHR请求拉取大量HTML内容，如何抓取/抓取？

在jquery的pageshow事件中调用web api

抓取爬行器不会从所有页面收集数据。

Scrapy Splash单击带有javascript href的链接

如何使用Java单击列表中的链接

使用Scrapy从下一页获取数据

我想通过属性来标识特定的urls，但是如果感兴趣的属性是外文字符呢？

Scrapy以任意顺序提取数据。

如何像iOS中的Pinterest应用程序一样刷新表格视图

使用scrapy递归地爬行站点

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐