puppeteer获取href数组，然后遍历每个href和页面上的href

puppeteer是一个基于Node.js的开源库，用于控制Headless Chrome或Chromium浏览器，可以模拟用户在浏览器中的操作。它可以用于自动化测试、爬虫、数据抓取等各种场景。

要获取页面上的href数组并遍历每个href，可以使用puppeteer进行以下步骤：

安装puppeteer库：
安装puppeteer库：
引入puppeteer库：
引入puppeteer库：
创建一个异步函数，用于获取href数组和遍历每个href：
创建一个异步函数，用于获取href数组和遍历每个href：

以上代码中，我们使用puppeteer.launch()启动一个浏览器实例，然后通过browser.newPage()创建一个新的页面。接着，使用page.goto()方法导航到目标页面的URL。

使用page.$$eval()方法，我们可以在页面上执行一个函数，该函数会在浏览器上下文中运行，并且可以访问到页面上的DOM元素。在这个例子中，我们使用'a'作为选择器，获取所有的<a>标签元素，并通过map()方法将每个元素的href属性提取出来，最终得到一个href数组。

最后，我们使用for...of循环遍历每个href，并进行相应的操作。在这个例子中，我们只是简单地将每个href打印到控制台，你可以根据需求进行进一步的处理。

关于腾讯云的相关产品，推荐使用腾讯云的云服务器（CVM）来运行puppeteer脚本，以及使用对象存储（COS）来存储爬取到的数据。你可以在腾讯云官网上找到更多关于这些产品的详细介绍和文档。

腾讯云云服务器（CVM）：产品介绍、文档
腾讯云对象存储（COS）：产品介绍、文档

请注意，以上答案仅供参考，具体的实现方式和腾讯云产品选择应根据实际需求和情况进行决策。

相关·内容

【JavaScript】获取当前页的URL与window.location.href

利用Javascript获取当前页的URL，这个问题起来好像很复杂，如果第一次去想这个问题，很多人估计又在琢磨到底又是哪个神一般的Javascript函数。...其实不是，Javascript获取当前页的URL的函数就是我们经常用来重定向的window.location.href。..."+loc); 如果当前页面的url为http://localhost:6666/myphp/mobile/pc1.php，那么其运行结果如下：上面的函数同时展示如何获取当前页名称的做法...获取利用window.location.href的变量获取整个url之后，要哪一部分的地址，利用substring，indexof等字符串处理函数对获取到的url进行处理，截取你想要的部分。...平时利用window.location.href做重定向，就是改变整个浏览器的url，如果后面没有赋值，这就成了获取当前值的语句。

1.4K3 0

jQuery和js获取页面中所有a链接的href值

利用JavaScript和jQuery获取页面中的a链接： jQuery方法： //$('a') 获取了所有的a标签，然后循环获取 $('a').each(function(){ var href... = $(this).attr('href'); console.log(href); }); JavaScript方法：可以封装成一个函数 function getHref(){ var... hrefArr = document.getElementsByTagName('a'); //获取这个页面的所有A标签 for( var i=0; i<hrefArr.length; i++... ){ hrefURL = hrefArr[i].href; console.log(hrefURL); } } 在合适的地方调用： getHref()

14.2K2 0

我写了一个自动化脚本涨粉，从0阅读到接近100粉丝

$$(selector) 获取一组元素，底层调用的是 document.querySelectorAll(). 返回 Promise(Array(ElemetHandle)) 元素数组....，应该是现获取元素，然后在获取元素的属性。...事实上 Puppeteer 专门提供了一套获取属性的 API， Page.eval() 和 Page. Page....其中在页面上的大部分函数其实是 page.mainFrame().xx 的一个简写，Frame 是树状结构，我们可以通过page.frames()获取到页面所有的 Frame，如果想在其它 Frame...${aTags[0].name}.pdf`}); // 遍历节点数组，逐个打开并保存 (此处不再打印第一页) for (let i = 1, len = aTags.length; i < len

4511 0

使用Puppeteer提升社交媒体数据分析的精度和效果

然后，我们可以使用puppeteer.launch()方法的args选项来设置代理IP，例如：// 启动浏览器const browser = await puppeteer.launch({ // 是否显示浏览器界面...Puppeteer提供了一些方法来获取网页上的元素，例如：page.$()方法可以返回一个匹配指定选择器的元素对象page.$$()方法可以返回一个匹配指定选择器的元素对象数组page....$$eval()方法可以对一个匹配指定选择器的元素对象数组执行回调函数，并返回结果例如，我们可以使用以下代码来获取Twitter上一个用户的基本信息，如昵称、简介、关注数、粉丝数等：// 访问一个用户的主页...Puppeteer可以让我们在页面上执行任意的JavaScript代码，所以我们可以使用JavaScript的内置或第三方库来进行数据分析。...我们可以使用Puppeteer来从不同的社交媒体平台上获取我们想要的数据，并对这些数据进行简单或复杂的分析。Puppeteer是一个非常有用和灵活的工具，可以帮助我们实现各种网络爬虫的需求。

2752 0

基于Puppeteer实现前端SSR完美接⼊⽅案

举个例⼦，我们平时⽤vue，react等框架开发的项⽬，都是先下载 html ⽂档（不是最终的完全的 html），然后下载 js 来执⾏渲染出页⾯结果。优点前后端分离。...缺点不利于 SEO，因为搜索引擎不执⾏ JS 相关操作，⽆法获取渲染后的最终 html。⾸屏渲染时间⽐较长，因为需要页⾯执⾏ ajax 获取数据来渲染页⾯，如果请求接⼜多，不利于⾸屏渲染。...优点直观的、基于页⾯的路由系统（并⽀持动态路由）预渲染。...⽀持在页⾯级的静态⽣成 (SSG) 和服务器端渲染 (SSR) ⾃动代码拆分，提升页⾯加载速度具有经过优化的预取功能的客户端路由内置 CSS 和 Sass 的⽀持，并⽀持任何 CSS-in-JS...基于 Puppeteer 实现的 SSR ⽅案 SSR功能模块 SSR模块运⾏流程

1971 0

【爬虫】爬取简书某ID所有文章并保存为pdf

本文的目标是利用 Google 推出的「puppeteer」，配合无头浏览器爬取某位大佬在简书上发布的所有文章，并对页内元素进行优化样式后，以「pdf」格式保存下载到本地。...2 准备工作和前面爬虫方式不一样，这次的爬虫是在「Node.js」环境下执行的，所以需要提前安装好 node js。然后通过 npm 安装「puppeteer」模块。...再设置好浏览器的大小，然后打开文章列表页面。...，然后再通过 css 选择器获取到文章标题和页面地址。...获取到所有文章的链接地址之后，就可以通过遍历列表去打开每一篇文章。

1.3K3 0

使用Nodejs+puppeteer 批量保存网页为图片或PDF

学习Three.js的时候,看到官方提供了很多很多的example,实在太多了,但并不是每个我都感兴趣,想去了解,但我又记不住每个链接对对应的效果是什么样的,于是我想,能不能把所有的案例用图片保存下来,...于是我准备写一个工具,这个工具可以批量将网页保存成图片或PDF并且生成对应的图片案例页面,或json数据说干就干因为对nodejs比较数据,于是就选择用nodejs+puppeteer来实现这个小工具...首先是获取所有的example链接在控制台输入下面这段代码就会获取所有example的链接json数组代码如下: let linkArr = [...document.querySelector(...(/\//g, '_',) } }) console.log(linkArr) 效果如图: 主程序代码如下使用async await 递归example的链接数组进行截图,保存....puppeteer.launch({ executablePath:'.

1.7K1 0

node爬虫入门

爬虫从加载的网页资源中抓取的相应内容具有一定的局限性，比如使用JavaScript动态渲染的内容、需要用户登录等操作后才能展示的内容等都无法获取到，后文将介绍使用puppeteer工具库加载动态资源。...我们想要获取到这块数据就需要，在node服务中运行一个浏览器环境，然后让网页在浏览器环境下面运行，之后我们就能读取到这个列表的内容了，具体用到puppeteer工具库（https://github.com...获取js动态插入内容的栗子代码如下： // getDynamic.js const puppeteer = require('puppeteer'); const cheerio = require('...解析html文档（不清楚到底会不会得不偿失，相对puppeteer语法和js源生，个人比较喜欢用jq） // 读取信息 $('div.anchor-item').each((i, item) =.../assets/crawler.js）实现的功能开发者实例一个Crawler对象，然后调用该对象下的queue函数并传入url（可以是字符串或者数组），queue函数执行后会返回一个Promise对象

5.3K2 0

Memlab，一款分析 JavaScript 堆并查找浏览器和 Node.js 中内存泄漏的开源框架

运行示例 App 查找内存泄漏 1.创建一个场景文件 2.运行 memlab 3.调试泄漏跟踪更多 Memlab 是一款 E2E 测试和分析框架，用于发现 JavaScript 内存泄漏和优化机会。...它支持定义一个测试场景（使用 Puppeteer API），教 Memlab 如何与您的单页应用程序（SPA）交互，Memlab 可以自动处理其余的内存泄漏检查：与浏览器交互并获取 JavaScript...第 3 部分：每个泄漏簇的详细代表泄漏跟踪泄漏跟踪是从 GC 根（垃圾收集器遍历堆的堆图中的入口对象）到泄漏对象的对象引用链。跟踪显示泄漏的对象为何以及如何在内存中仍然保持活动状态。...map - 这是正在访问的对象的 V8 HiddenClass（V8 在内部使用它来存储有关对象形状的元信息和对其原型的引用 - 在此处查看更多信息）- 在大多数情况下，这是 V8 实现细节，可以忽略。...0 - 这表明分离的 HTMLDIVElement（即当前未连接到 DOM 树的 DOM 元素）被存储为leakedObjects 数组的第一个元素（由于显示所有 1024 条泄漏痕迹是压倒性的，Memlab

3.7K2 0

Bye, CSDN

前面都很顺利，分析页面，看看博客内容一共有多少页，然后在每一页获取博客的 articleid 再去请求博客。...article_id 组成的数组，然后通过和 ttp://mp.blog.csdn.net/mdeditor/getArticle?...后来我尝试首先获取 cookies，然后再次请求的时候把 cookies 塞进去请求，结果还是不行。哇。后来我才发现： CSDN 果然不是一般的恶心。...后来想到或许可以使用 headless chrome，于是就去用 puppeteer，使用体验和phantomjs 类似，顺嘴提一句，phantomjs 感觉都快不行了，最近维护者又内讧了。...找到了我最不愿意使用的方法，先从浏览器中把 cookies 拷贝下来，然后再去请求。因为一开始心里总是接受不了这种半自动化的方式，显得太 low。白猫黑猫，抓到老鼠就可以了。罢了。

5883 0

Android安装包不同版本文件大小对比实现

背景每一次发版不仅意味着新功能的上线，也同样会导致安装包大小的改变。为了解决每次安装包大小的改变测试能完全掌握具体情况，所以需要有这样一个平台实现.apk包所有文件遍历并获取大小。...功能同一个应用包的两个不同版本文件大小对比 1、获取apk大小等基本信息 2、遍历文件夹，分别展示新增文件、体积增加文件、删除文件、体积减小文件列表木块 3、支持.jar包文件比对 4、前端页面包含：...上传文件页面、任务列表页、结果详情页实现步骤 1、前端页面上传需要对比的两个apk文件，保存到服务器前端上传文件控件： <input class="btn btn-default btn-lg"...androguard.get_main_activity()) except Exception as e: print(apk_path + ' ->>', e) return apk_info 遍历获取所有文件名和大小...()) # 如果是文件夹，继续遍历 # 如果是文件，获取到文件大小 resultFilePath = os.path.join(targetFile,

5281 0

前端人的爬虫工具【Puppeteer】

3.3K2 0

如何使用Puppeteer进行新闻网站数据抓取和聚合

XPath定位元素，并获取元素的属性或文本将获取的数据存储到本地文件或数据库中关闭页面和浏览器正文安装Puppeteer库和相关依赖要使用Puppeteer，我们首先需要安装Node.js环境，以及Puppeteer...});})();打开一个新的页面，并设置代理IP和请求头然后，我们需要打开一个新的页面，并设置代理IP和请求头。...= []; // 遍历新闻列表，获取每个新闻的标题、链接、时间和来源 for (let news of newsList) { // 获取新闻的标题，使用page.evaluate方法在页面上执行...，使用page.evaluate方法在页面上执行JavaScript代码，并返回执行结果 const link = await page.evaluate((el) => el.href..., news); // 获取新闻的时间和来源，使用page.evaluate方法在页面上执行JavaScript代码，并返回执行结果 const timeAndSource = await

3322 0

领导让我做 PPT，我用代码来生成

这里大学的信息可以从中国大学 MOOC这里抓取：我们用 puppeteer 来爬取大学的校徽、名字、介绍，然后用这些信息来生成 pdf 等。...创建个 Nest 项目： nest new ppt-generate 安装 puppeteer： npm install --save puppeteer 然后在 AppService 里引入下：...universityList() { return this.appService.getUniversityData(); } 把服务跑起来： npm run start:dev 试一下：然后继续点进详情页...，拿到学校的描述：抓取每个学校数据的时间太长，我们用 SSE（server sent event）的方式返回数据： SSE 类似这样用：改下 AppController @Sse('list')...然后我们在 list 接口里加一下这个：顺便替换下校徽图片，之前取的这个：换成这里的： import { Injectable } from '@nestjs/common'; import puppeteer

961 0

写个爬虫，爬取 Boss 直聘全部前端岗位

首先，进入搜索页面，选择全国范围，搜索前端：然后职位列表的每个点进去查看描述，把这个岗位的信息和描述抓取下来：创建 test.js import puppeteer from 'puppeteer'...不过这里其实没必要这么麻烦，因为只要你 url 里带了 city 和 query 的参数，会自动设置为搜索参数：所以直接打开这个 url 就可以： import puppeteer from 'puppeteer...就是在 url 后再带一个 page 的参数：然后，我们遍历访问每页数据，拿到每个职位的信息： import puppeteer from 'puppeteer'; const browser =...dom 去拿的：跑一下试试：可以看到，它会依次打开每一页，然后把职位数据爬取下来。...跑一下：它同样会自动打开每个岗位详情页，拿到职位描述的内容，并打印在控制台。接下来只要把这些存入数据库就好了。

2522 0

使用Node.js爬取任意网页资源并输出高质量PDF文件到本地~

:附带文档和源码,别忘了给个star哦本需求使用到的技术：Node.js和puppeteer puppeteer 官网地址: puppeteer地址 Node.js官网地址:链接描述 Puppeteer...环境和安装 Puppeteer本身依赖6.4以上的Node，但是为了异步超级好用的async/await，推荐使用7.6版本以上的Node。...，重新去开启网页，获取它们的数据。...接下来我们直接来爬取Node.js的官网首页然后直接生成PDF 无论您是否了解Node.js和puppeteer的爬虫的人员都可以操作，请您一定万分仔细阅读本文档并按顺序执行每一步本项目实现需求：给我们一个网页地址...数据在这个时代非常珍贵，按照网页的设计逻辑，选定特定的href的地址，可以先直接获取对应的资源，也可以通过再次使用 page.goto方法进入，再调用 page.evaluate() 处理逻辑，或者输出对应的

3.1K6 0

使用puppeteer抓取受限网站

安装Puppteer npm install --save puppeteer 选择目标网站我们这里选择胡子大哈大神的网站 http://huziketang.mangojuice.top ；爬取所有文章...基本思想思路实现方案爬取书籍目录->根据目录爬取没个章节的内容注意的地方本书有付费章节和免费章节，爬取付费章节需要禁用javascript执行，然后移除对应的mask的dom节点核心代码...const path = require('path'); const fs = require('mz/fs'); const puppeteer = require('puppeteer');.../说明：只是禁用page原有javascript,但是page.evaluate 中可以继续使用 await page.setJavaScriptEnabled(false); //获取书目录标题...= v.getAttribute('href'); return `${targetHost}${href}`; }) return {

3K13 0

用 Node.js 爬虫下载音乐

可以用 querySelectorAll('a')开始获取页面上的每个链接。...此代码记录页面上每个链接的 URL。...可以用 forEach 函数浏览给定选择器中的所有元素。遍历页面上的每个链接都很棒，但是如果要下载所有 MIDI 文件，则需要更具体一些。...通过 HTML 元素过滤在编写更多代码去解析所需的内容之前，先来看一下浏览器渲染出来的 HTML。每个网页都是不同的，有时从其中获取正确的数据需要一些创造力、模式识别和实验。 ?...这些函数遍历给定选择器的所有元素，并根据是否应将它们包含在集合中而返回 true 或 false。如果查看了上一步中记录的数据，可能会注意到页面上有很多链接没有 href 属性，因此无处可寻。

5.5K3 1

pyspider使用教程

前言 pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等...爬取指定数据接下来我们通过自定义来抓取我们需要的数据，目标为抓取这个页面中，每个详情页内容的标题、标签、描述、图片的url、点击图片所跳转的url。 ? ?...each(‘a’).attr.href 对于每个 div 标签，获取它的 a 标签的 href 属性。可以将最终获取到的url打印，并传入 crawl 中进行下一步的抓取。...标签页包含在 header 中，a 的文本内容即为标签，因为标签有可能不止一个，所以通过一个数组去存储遍历的结果 header.items(‘a’) response.doc(‘div[id=”post_content...”]’) 获取 id 值为 post_content 的 div 标签，并从中取得详情页的描述内容，有的页面这部分内容可能为空。

3.6K3 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云