如何使用Puppeteer捕获页面中的所有链接？

Puppeteer是一个基于Node.js的开源工具，用于控制和自动化Chrome或Chromium浏览器。它提供了一组强大的API，可以模拟用户在浏览器中的操作，例如点击、填写表单、截图等。

要使用Puppeteer捕获页面中的所有链接，可以按照以下步骤进行操作：

安装Puppeteer：在命令行中运行以下命令来安装Puppeteer依赖：

npm install puppeteer

导入Puppeteer库：在你的代码中导入Puppeteer库，以便使用其提供的API：

const puppeteer = require('puppeteer');

启动浏览器实例：使用puppeteer.launch()方法启动一个浏览器实例：

const browser = await puppeteer.launch();

打开页面：使用browser.newPage()方法创建一个新的页面对象，并使用page.goto()方法打开目标页面：

const page = await browser.newPage();
await page.goto('https://example.com');

捕获页面中的所有链接：使用page.$$eval()方法结合CSS选择器来获取页面中的所有链接元素，并提取它们的href属性：

const links = await page.$$eval('a', anchors => anchors.map(a => a.href));
console.log(links);

关闭浏览器实例：使用browser.close()方法关闭浏览器实例：

await browser.close();

上述代码片段演示了如何使用Puppeteer捕获页面中的所有链接。你可以根据自己的需求进行进一步的处理，例如对链接进行筛选、存储或其他操作。

腾讯云相关产品和产品介绍链接地址：

云服务器（CVM）：提供弹性计算能力，可快速部署应用程序和服务。
云函数（SCF）：无服务器计算服务，可按需运行代码，无需管理服务器。
对象存储（COS）：安全、稳定、低成本的云端存储服务，适用于各种场景。
内容分发网络（CDN）：加速内容分发，提高用户访问速度和体验。
人工智能机器学习（AI）：提供丰富的人工智能服务和开发工具，助力构建智能化应用。
云数据库 MySQL版（CDB）：稳定可靠的云端数据库服务，支持高可用、弹性扩展等特性。

请注意，以上链接仅为示例，具体的产品选择应根据实际需求进行评估和决策。

如何使用Puppeteer捕获页面中的所有链接？

javascript、node.js、web-scraping、puppeteer

尝试捕获页面中的所有<a> console.log返回undefined，但是我不明白为什么这个const anchors = Array.from(document.querySelectorAll(sel));是正确的？const puppeteer = require('puppeteer'); const browser = await puppeteer</em

浏览 28提问于2021-01-13得票数 0

2回答

木偶师: page.screenshot调整视口

javascript、puppeteer

我是木偶师的新手，所以请原谅这是个小错误。我正在采取一个page.screenshot与傀儡在headless:false模式。在一秒钟的闪烁，视口似乎调整大小(得到几乎一半的小)，在采取屏幕截图，然后我们回到全尺寸，直到下一个截图。以下是我的相关代码： args: ['--disable-features=site-

浏览 7提问于2021-06-20得票数 5

2回答

如何用所有的cookie重新创建页面？

javascript、puppeteer

我试图： import puppeteer from 'puppeteer'; } }

浏览 5提问于2017-10-08得票数 4

2回答

UnhandledPromiseRejectionWarning:错误:评估失败

javascript、asynchronous、async-await、puppeteer

我正试图与木偶师和库工作，以自动化的GTM容器测试在一个网站。到目前为止，我已经编写了以下简单代码：const dataLayer = require('puppeteer-datalayer'); const browser = await puppeteer.launch(

浏览 4提问于2020-01-02得票数 0

回答已采纳

1回答

无法让木偶手重新使用同一浏览器浏览新收集的链接

node.js、web-scraping、puppeteer

我在node和puppeteer中创建了一个脚本，可以从站点的登陆页面中抓取不同帖子的链接，而我的脚本正在完美地完成这个任务。虽然该网站的内容是静态的，但我使用木偶师来观察它是如何表现的，因为我对此非常陌生。我现在想做的是利用这些链接遍历不同的页面，重用相同的浏览器，而不刮

浏览 1提问于2019-04-04得票数 1

回答已采纳

5回答

使用Puppeteer，我如何打开一个页面，获取数据，然后返回到上一页，以获得下一页的列表？

javascript、node.js、puppeteer

形势：1)加载页0。页0包含指向不同页面的可单击链接。我想加载所有这些页面的内容。所以：3)点击加载第2页的第二个链接。无限直到所有的链接都被点击。使用我的当前代码，页面0加载，然后单击第一个链接并加载页面1，然后出现以下错误的崩溃： (no

浏览 0提问于2018-08-06得票数 10

回答已采纳

2回答

如何在控制台调用Chrome Node截图？

google-chrome、google-chrome-devtools、puppeteer

我知道您可以通过命令提示符捕获单个html节点，但是否可以从类似于Puppeteer的控制台以编程方式完成此操作？我想循环页面上的所有元素，并为偶尔的一次性项目捕获它们，在这些项目中，我不想在puppeteer中设置完整的身份验证过程。

浏览 6提问于2018-06-06得票数 12

1回答

木偶技师如何查找页面错误

node.js、puppeteer

如何捕获页面错误？？我试着用木偶师找出页面错误。它没有显示任何东西 const browser= await puppeteer.launch({ }); const page = await br

浏览 0提问于2018-03-28得票数 4

2回答

无法使我的脚本继续单击按钮

javascript、node.js、web-scraping、puppeteer

我创建了一个脚本，使用more与node.js结合，点击位于网页底部的puppeteer按钮，从它的登陆页面中挖掘出所有的标题。const puppeteer = require("pup

浏览 0提问于2018-10-24得票数 0

回答已采纳

1回答

如何从带有node puppeteer的页面获取所有链接？

javascript、node.js、web-scraping、web-crawler、puppeteer

我正在尝试用node构建一个网络爬虫，偶然发现了puppeteer包，它看起来非常适合我想要的。我的最终结果是收集页面中的所有链接、所有文本内容，然后是页面本身的屏幕截图。我运行了以下，它似乎收集了大量的链接，但在实际检查的网站上，有一些链接，它没有收集。const puppeteer = require(&#

浏览 15提问于2018-12-16得票数 0

回答已采纳

3回答

如何捕获事件侦听器内部的异常？

node.js、ecmascript-6、es6-promise、puppeteer

我使用Puppeteer库打开一个URL并处理所有请求的响应。有时在事件侦听器page.on('response')中，我需要抛出一个错误，如下面的示例所示。但是我无法以任何方式捕获这些异常，我总是得到unhandled promise rejection错误。如何处理这些异常？我不想使用process.on('unhandledRejection')，因为它根本不能解决我的问题。const <

浏览 3提问于2017-09-18得票数 9

1回答

puppeteer获取href数组，然后遍历每个href和页面上的href

javascript、html、node.js、arrays、puppeteer

我正在尝试通过node.js中的木偶操纵者抓取数据目前，我正在编写一个脚本，它可以抓取well.ca某一部分中的所有数据现在，以下是我试图通过node.js实现的方法/逻辑 1-前往网站的医药健康部分2-使用dom选择器通过dom选择器panel-body-content a[href]从.panel-body-content获取href数组，以抓取子部分 3-使用for循环遍历每个链接(子部分)<em

浏览 67提问于2020-07-02得票数 3

回答已采纳

1回答

等待、捕获和分配变量-获取/xhr响应节点js，傀儡

javascript、node.js、json、fetch、puppeteer

我正在使用Puppe显获取页面数据，但不幸的是，没有办法提出所有的请求。不可能窥视请求和主体并重复类似的请求，因为主体使用每次随机生成的代码--因此这不是一个选项，因此有必要简单地显示来自名称为v2的</em

浏览 9提问于2022-10-22得票数 1

2回答

捕捉可滚动页面中的所有链接，并使用Puppeteer无限滚动

javascript、node.js、web-scraping、puppeteer

此脚本使用无限滚动滚动页面并捕获所有链接。如何返回results?Moreover，--如何以块形式返回结果，避免将部分结果附加到同一个数组？剧本： const browser = await puppeteer.launch(

浏览 9提问于2021-01-13得票数 0

1回答

未能在木偶技师中使用xpath刮取到下一页的链接

javascript、node.js、web-scraping、xpath、puppeteer

我正在尝试从这个中抓取下一页的链接。我知道如何使用css选择器来抓取。但是，当我试图使用xpath解析同样的内容时，事情就会出错。是我得到的，而不是下一个页面链接。const puppeteer = require("puppeteer"); let url = "https://stackoverflow.com/questions&#x

浏览 1提问于2021-09-16得票数 0

回答已采纳

1回答

从框架集中的第5层深子页面调用外部JS功能

javascript、puppeteer、frameset

我不能复制整个struts操作servlet，但是我已经模拟了HTML页面，一旦用户登录并选择Shop，就会在框架中加载14个不同的页面。目标是从加载在第5深度子框架页面中的14页中的一页中单击CreateNewShoping购物篮。该链接调用外部javascript函数，但傀儡师返回此错误： Error: Evaluation failed: ReferenceError: create_order is not

浏览 5提问于2021-05-19得票数 0

2回答

木偶人爬行器大规模爬行

web-crawler、puppeteer、google-chrome-headless

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头

浏览 14提问于2020-12-05得票数 2

3回答

是否可以在创建屏幕截图之前使用Puppeteer修改DOM中的元素？

javascript、node.js、linux、ubuntu、puppeteer

我遇到了一个问题，我有一个相当简单的Node进程来捕获屏幕截图。在获取屏幕截图之前，是否可以使用Puppeteer更改HTML元素的innerText？我已经成功地使用Puppeteer在身份验证字段中键入文本并登录到站点，但我想知道是否有类似的方法可以让我更改特定元素中的文本(使用id或类名)。我使用的屏幕截图代码示例： const puppeteer = re

浏览 2提问于2018-01-30得票数 19

回答已采纳

2回答

多个独立的浏览器，每个浏览器有一个选项卡-同时与页面上的元素交互(无头木偶)

javascript、node.js、google-chrome、web-scraping、puppeteer

在ubuntu服务器上使用Node.js，Chrome和puppeteer作为无头浏览器，我正在抓取一些不同的网站。其中一个偶尔的任务是与加载的页面进行交互(单击链接打开另一个页面，然后可能再次单击以接受条款等)。我可以做到所有这些都很好，但我正在尝试理解如果我同时打开多个页面并试图与不同加载的页面同时交互(重叠时间)，它将如何工作。为了可视化这一点，我在想用户

浏览 1提问于2020-06-08得票数 3

3回答

捕获所有链接，包括表单提交

javascript、jquery

我想知道如何使用jQuery捕获页面上的所有链接。这个想法类似于Facebook。在Facebook中，如果您单击一个链接，它会捕获该链接并使用ajax加载相同的链接。只有当你在新的标签页中打开一个链接时，它才会使用常规调用加载页面。有关于如何</

浏览 0提问于2009-05-14得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用Puppeteer捕获页面中的所有链接？

相关·内容

如何使用Puppeteer捕获页面中的所有链接？

木偶师: page.screenshot调整视口

如何用所有的cookie重新创建页面？

UnhandledPromiseRejectionWarning:错误:评估失败

无法让木偶手重新使用同一浏览器浏览新收集的链接

使用Puppeteer，我如何打开一个页面，获取数据，然后返回到上一页，以获得下一页的列表？

如何在控制台调用Chrome Node截图？

木偶技师如何查找页面错误

无法使我的脚本继续单击按钮

如何从带有node puppeteer的页面获取所有链接？

如何捕获事件侦听器内部的异常？

puppeteer获取href数组，然后遍历每个href和页面上的href

等待、捕获和分配变量-获取/xhr响应节点js，傀儡

捕捉可滚动页面中的所有链接，并使用Puppeteer无限滚动

未能在木偶技师中使用xpath刮取到下一页的链接

从框架集中的第5层深子页面调用外部JS功能

木偶人爬行器大规模爬行

是否可以在创建屏幕截图之前使用Puppeteer修改DOM中的元素？

多个独立的浏览器，每个浏览器有一个选项卡-同时与页面上的元素交互(无头木偶)

捕获所有链接，包括表单提交

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐