文章/答案/技术大牛

发布

用Scrapy和Splash抓取单页react站点后跟随链接

Scrapy是一个基于Python的开源网络爬虫框架，它可以帮助开发者快速、高效地抓取网页数据。Splash是一个JavaScript渲染服务，可以解决Scrapy无法处理动态网页的问题。通过结合使用Scrapy和Splash，我们可以实现抓取单页React站点并跟随链接的功能。

具体步骤如下：

安装Scrapy和Splash：使用pip命令安装Scrapy和Splash库。
配置Splash服务：启动Splash服务，并设置好相关配置，例如端口号、超时时间等。
创建Scrapy项目：使用Scrapy命令创建一个新的Scrapy项目。
编写Scrapy爬虫：在Scrapy项目中创建一个爬虫文件，编写爬虫逻辑。首先，使用SplashRequest发送请求到目标网页，并使用Lua脚本渲染页面。然后，使用XPath或CSS选择器提取所需数据，并将其保存到Item中。
配置Scrapy中间件：为了在Scrapy中使用Splash，需要配置相应的中间件。中间件可以在发送请求前后对请求进行处理，例如在请求前添加Splash相关的参数。
设置链接跟随：在爬虫逻辑中，可以通过提取页面中的链接，并使用Scrapy的Request或SplashRequest发送新的请求，实现链接的跟随。
运行爬虫：使用Scrapy命令运行爬虫，并观察抓取结果。

Scrapy和Splash的优势在于可以处理动态网页，通过JavaScript渲染页面，使得爬虫可以获取到动态生成的内容。这对于一些使用React等前端框架构建的单页应用非常有用。

应用场景包括但不限于：

数据采集：抓取各类网站的数据，如新闻、商品信息等。
SEO优化：分析网站的链接结构和内容，优化搜索引擎排名。
数据分析：获取大量数据进行统计分析，如舆情分析、市场调研等。

腾讯云相关产品中，可以使用云服务器（CVM）提供运行Scrapy和Splash的环境，使用对象存储（COS）存储抓取的数据，使用云数据库（CDB）存储和管理数据。此外，还可以使用云函数（SCF）实现自动化的定时任务，定期运行爬虫。

更多关于腾讯云产品的介绍和详细信息，请参考腾讯云官方文档：腾讯云产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

用Scrapy和Splash抓取单页react站点后跟随链接

、、、、

我目前正在使用Scrapy来抓取一个网站。我也在使用Splash来渲染那个网站。通过splash之后，响应返回的html是data-reactid=".0.1.1.0.1.$1.1.0.$0">Book</li> 我可以创建一个选择器来拉取数据链接或reactid，但我不确定如何

浏览 8提问于2017-01-02得票数 0

1回答

如何使用Scrapy和Splash处理分页，如果按钮的href为javascript:void(0)

、、、

我正试图从这个网站：中抓取大学的名称和链接，并且在处理分页时遇到了一个问题，因为指向下一页的按钮的href是javascript:void(0)，所以我无法用scrapy.Request()或response.follow()到达下一页，有什么方法可以这样处理分页吗？下面的代码片段只能在第一页和第二页获取大学的名称和链接：from <

浏览 9提问于2022-05-12得票数 -1

回答已采纳

4回答

在运行时生成python regex以匹配从'n‘到无穷大的数字

、、

我正在使用scrapy抓取网站并从中提取数据，scrapy使用基于regex的规则来检查页面是否必须解析，或者是否必须遵循链接。为此，当启动爬行器时，我从数据库获取最后关注的链接。我的站点urls看起来像http://foobar.com/page1.html，所以，通常情况下，规则的正则表达式会像这样跟随每个链接，就像/page\d+\.html一样。但是，我如何才能编写一个正则表达式，使其匹配，例如，第15<

浏览 2提问于2011-03-06得票数 1

回答已采纳

2回答

Scrapy‘知道’什么时候它爬行了整个网站？

、、、

当我在一个网站的单个页面上爬行时，我已经成功地使用了“美丽汤”，但是我有一个新的项目，在这个项目中，我必须检查一个大的网站列表，看看它们是否包含一个提到或链接到我的网站。对于BS，我只是还不知道如何告诉我的刮板，它是用一个站点完成的，所以我达到了递归限制。是从盒子里拿出来的什么东西吗？

浏览 0提问于2017-09-12得票数 1

回答已采纳

1回答

将值传递给刮伤回调。

、

我正试图开始爬行和抓取一个网站到磁盘，但有困难，使回调功能的工作，我想。 import scrapyfrom scrapy.linkextractors impo

浏览 2提问于2016-06-02得票数 1

1回答

Scrapy Crawler多个域在检索源页面后没有错误地完成

、

尝试让Scrapy抓取多个域。我让它工作了很短时间，但有些东西改变了，我不知道是什么。我的理解是，带有规则的"CrawlSpider“应该遵循任何允许的链接，直到深度设置或域名耗尽。), callback='parse', follow=True),) print(response.url)好的，只要只有1个域

浏览 29提问于2018-06-03得票数 1

回答已采纳

1回答

、

我想知道有什么最好的做法来减少单页网站的页面加载时间，并以一种不会伤害SEO的方式做到这一点。“使用p

浏览 1提问于2012-12-12得票数 0

2回答

如何加速或延迟file_get_contents PHP以刮满加载的页面？

、、

我想我想要刮的网站是用React编码的，因为我在它的html：data-reactid="408"中看到了这样的东西我的代码可以很好地从第一页抓取数据，但是当它转到第二页和以后的页面时，它会将不同的html经过一番研究后，我发现file_get_contents非常快地返回了一个未完全加载的页面版本，我认为React对HTML链接做了一些修改，并将span标记转换为a标记。

浏览 2提问于2020-09-03得票数 0

回答已采纳

1回答

用Scrapy刮去大量的站点

、、

我想分析一些相互连接的网站(如科幻网站)的链接结构和文本内容。我有一个授权的网站名单，我想刮，其中大约300个。一旦我在数据库中有了抓取的页面，我将使用其他工具来分析数据。对于每个页面，保存标题、html内容和sql lite db中的链接。 # http://doc.scrapy.or

浏览 3提问于2014-04-09得票数 4

2回答

google没有抓取angularjs ngMeta标题描述

ngMeta.setTag('description', 'this is description');}); 页面加载后一切正常

浏览 2提问于2016-05-19得票数 25

3回答

在Scrapy中生成.json导出

、、、、

只是一个关于Scrapy中json导出格式的快速问题。导出的文件如下所示。text": "x", "tags": "x", "url": "x"},]} 我对刮伤和蟒蛇不是很有

浏览 0提问于2018-04-03得票数 2

回答已采纳

2回答

响应应用程序在部署后显示空白页

、、、、

我以前在GitHub和netlify上创建和部署了单页面反作用应用程序，它们都运行得很好。问题是多页面应用程序使用的反应路由器。为了测试这一点，我尝试了几次不同的应用程序，一旦我实现了反应-路由器和链接到不同的页面，它们在部署后变为空白。下面是一个测试应用程序：import React from "react"; import ReactDOM from "react-dom/client&q

浏览 6提问于2022-09-16得票数 2

8回答

scrapy可以用来从使用AJAX的网站抓取动态内容吗？

、、、、

有些站点有API，但是我需要为那些没有API的站点提供API。如果这个问题过于开放，我深表歉意。简而言之，我的问题是:如何使用scrapy来抓取这些动态数据，以便我可以使用它？

浏览 8提问于2011-12-18得票数 156

回答已采纳

4回答

在整个网站中保持相同的URL

、、

无论用户在网页上单击什么，重定向的链接都不应显示在地址栏中，以避免用户将该页面添加为书签。有帮助吗？

浏览 2提问于2012-07-23得票数 0

回答已采纳

5回答

redux() -ed容器能实现像componentDidMount这样的lifecyle方法吗？

、

在redux站点中，我遇到了一种重复的模式:组件显示来自web的数据，它应该在加载时自动填充，不需要任何用户交互。在mapStateToProps和mapDispatchToProps中进行异步调用(我的意思是实际上调用异步函数，而不是将其作为属性返回)没有意义。因此，我最后所做的是将异步调用放入由mapDispatchToProps()公开的一个mapDispatchToProps()函数中，然后从两个或多个React生命周期方法：componentDidMount编辑这样就不会混淆我所说的connect()ed容器组件的含义，下面是一

浏览 3提问于2016-07-20得票数 30

回答已采纳

点击加载更多