使用cheerio遍历源页面并执行逻辑

使用cheerio可以实现对源页面的遍历和执行逻辑。cheerio是一个类似于jQuery的库，可以在服务器端使用，用于解析和操作HTML文档。

首先，需要安装cheerio库。可以通过npm安装：

npm install cheerio

然后，在代码中引入cheerio库：

const cheerio = require('cheerio');

接下来，可以使用cheerio的load方法将源页面加载到一个cheerio对象中：

const $ = cheerio.load(html);

这里的html是源页面的HTML内容。

加载完成后，就可以使用cheerio提供的方法来遍历和操作源页面了。例如，可以使用选择器来选择特定的元素：

$('h1').each((index, element) => {
  console.log($(element).text());
});

上述代码会选择所有的h1元素，并打印它们的文本内容。

除了选择器，cheerio还提供了其他方法来获取元素的属性、修改元素的内容等。可以根据具体需求来使用这些方法。

在执行逻辑方面，可以根据遍历到的元素进行相应的操作。例如，可以提取元素的文本内容、获取元素的属性值、修改元素的样式等。

总结一下，使用cheerio可以方便地遍历源页面并执行逻辑。它是一个强大的HTML解析和操作库，适用于在云计算领域中进行前端开发、后端开发、数据抓取等任务。

推荐的腾讯云相关产品：腾讯云云服务器（CVM）和腾讯云函数（SCF）。

腾讯云云服务器（CVM）：提供可扩展的云服务器实例，适用于各种规模的应用程序和工作负载。详情请参考：腾讯云云服务器
腾讯云函数（SCF）：无服务器计算服务，支持事件驱动的函数计算模型，可以根据需求自动扩展和收缩计算资源。详情请参考：腾讯云函数

相关·内容

async和enterproxy控制并发数量

没错，并行做到了多任务的同时进行使用enterproxy控制并发数量 enterproxy是朴灵大大为主要贡献的工具，带来一种事件式编程的思维变化，利用事件机制解耦复杂业务逻辑，解决了回调函数耦合性的诟病...，将串行等待变成并行等待，提升多异步协作场景下的执行效率我们如何使用enterproxy控制并发数量？...第三步：使用superagent请求目标URL，并使用cheerio处理baseUrl得到目标内容url，并保存在数组arr中 superagent.get(baseUrl) .end(function...arr，解析每一个页面需要的信息 }) 我们需要一个函数验证抓取的url对象，很简单我们只需要一个函数遍历arr并打印出来就可以： function output(arr){ for(var...i = 0;i<arr.length;i++){ console.log(arr[i]); } } 第四步：我们需要遍历得到的URL对象，解析每一个页面需要的信息。

1.2K10 0

用 Javascript 和 Node.js 爬取网页

Cheerio：用于遍历 DOM 的核心 JQuery Cheerio 是一个高效轻便的库，它使你可以在服务器端使用 JQuery 的丰富而强大的 API。...如果你的用例需要执行 Javascript 并加载外部源，那么以下几个选项将很有帮助。...这就具备了一些以前没有的可能性：你可以获取屏幕截图或生成页面 PDF。可以抓取单页应用并生成预渲染的内容。自动执行许多不同的用户交互，例如键盘输入、表单提交、导航等。...完成操作并完成页面加载后，将分别使用 page.screenshot() 和 page.pdf() 获取屏幕截图和 pdf。...✅ JSDOM 根据标准 Javascript规范从 HTML 字符串中创建一个 DOM，并允许你对其执行DOM操作。

10K1 0

node爬取新型冠状病毒的疫情实时动态

需要注意的是安装puppeteer的时候很容易安装失败，这里有俩个解决方法，都是用淘宝源（马云爸爸不是白叫的?）。...一、先将npm换成淘宝源再安装： npm config set registry http://registry.npm.taobao.org/ npm install -g cheerio npm i...$('html'); //获取所有的html //frame.evaluate()在浏览器中执行函数，相当于在控制台中执行函数，返回一个Promise const html = await...解析html： // 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象 // 使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码 var...//爬取全国新型肺炎疫情实时动态并写入到指定的.php文件 function update() { (async () => { const browser = await puppeteer.launch

1.2K2 0

node爬虫入门

cheerio使用教程：https://github.com/cheeriojs/cheerio cheerio能够处理html结构的字符串，并让我们能够通过jq的语法读取到相应的dom。...cheerio读取html文档信息的功能，后面我们将cheerio用在前面请求200页博文列表页面的代码中，具体代码如下： // getListData.js const fs = require('fs...而使用puppeteer我们就不用去关心页面到底请求什么接口，都可以一把梭直接获取到数据。这两种方案都有利弊，看自己想要使用哪种方案了。这里就不展示后面的方法了。.../assets/crawler.js）实现的功能开发者实例一个Crawler对象，然后调用该对象下的queue函数并传入url（可以是字符串或者数组），queue函数执行后会返回一个Promise对象...，因此可以直接使用.then来读取到返回的对象，然后使用这个数据里面的jq对象读取页面中的内容。

5.3K2 0

Node.js爬虫在租房信息监测与分析中的应用

确定目标网站和数据源在开始之前，我们首先需要确定我们要爬取数据的目标网站和数据源。常见的租房信息网站包括58同城、赶集网、链家等。在本文中，我们选择以58同城为例进行演示。2....使用Node.js编写爬虫程序2.1 安装依赖库首先，我们需要安装一些必要的依赖库，包括request和cheerio。request用于发送HTTP请求，cheerio用于解析HTML文档。...request库向58同城的租房页面发送了HTTP请求，并使用cheerio库对返回的HTML文档进行解析，提取出了租房信息的标题和价格，并输出到控制台。...我们可以使用MongoDB、MySQL等数据库存储数据。...// 在爬虫程序中添加数据库存储逻辑const MongoClient = require('mongodb').MongoClient;// 连接数据库const url = 'mongodb://localhost

951 0

搭建以 serverless 为后台服务的疫情热搜快应用

cheerio：为服务端设计的轻量级 jQuery 核心实现，用来过滤选取爬取到的页面数据的。...cnpm 或者替换淘宝源，这样会快很多。...the server.结合 puppeteer 的使用代码如下： const puppeteer = require('puppeteer'); const cheerio = require('cheerio...然后我们测试一下线上的函数运行情况，这里我踩了一堆坑，花费了几倍代码开发的时间才爬出来，就不具体描述过程了，把上传之后的坑列在下面，并给出解决的方案：第一坑就是上传之后，运行发现内存不够的情况导致执行失败...这个问题在我本地测试是没有发现的，SCF 本地运行显示使用内存才 50+MB，解决办法是修改函数执行的运行环境配置，上配置： [scf-runtime-config] 第二坑就是发现我们 template.yaml

1.1K1 0

从网页中提取结构化数据：Puppeteer和Cheerio的高级技巧

我们将结合这两个工具，展示如何从网页中提取结构化数据，并给出一些高级技巧，如使用代理IP、处理动态内容、优化性能等。...在本文中，我们将使用亿牛云爬虫代理作为示例，它提供了稳定、快速、安全的代理IP服务，并支持多种协议和认证方式。要使用亿牛云爬虫代理，我们需要先注册一个账号，并获取域名、端口、用户名和密码。...page.on(event, handler)：监听一个事件使用这些方法，我们可以实现很多复杂的交互逻辑，来处理动态内容。...if (title) { titles.push(title); } }); // 返回提取的数据 return titles;};// 使用Promise.all()并发执行三个任务...结语在本文中，我们介绍了如何使用Puppeteer和Cheerio来从网页中提取结构化数据，并给出了一些高级技巧，如使用代理IP、处理动态内容、优化性能等。

4881 0

TypeScript 爬虫实践：选择最适合你的爬虫工具

如果你的爬虫任务主要是对静态页面进行数据抓取，并且你希望拥有简单易用的 API，那么 Cheerio 将是一个不错的选择。实践建议：●适用于静态页面的数据抓取任务。...●如果你熟悉 jQuery 的操作方式，那么学习和使用 Cheerio 将会非常容易。2....结合 Axios 和 Cheerio 可以轻松地实现对静态页面的数据抓取。...结合 Got 和 JSDOM 可以模拟完整的浏览器环境，支持 JavaScript 执行和页面渲染，适用于处理动态页面的数据抓取任务。实践建议：●适用于需要处理动态页面的数据抓取任务。...当然，实际应用中可能会涉及到更复杂的页面结构和数据提取逻辑，你可以根据自己的需求进行相应的调整和扩展。

1231 0

分享6个必备的 JavaScript 和 Node.js 网络爬虫库

由于其简单易用，Cheerio在网络爬虫领域非常受欢迎。以下是使用Cheerio进行网络爬虫的一些示例：示例一：单页面抓取我们使用Cheerio来抓取网页的标题和内容。...可以与其他库（如Axios）结合使用，处理分页并抓取多个页面的数据。...以下是使用Axios进行网络爬虫的一些示例：示例一：单页面抓取我们使用Axios获取网页的HTML内容，然后使用Cheerio解析并提取所需数据。...）结合使用，处理分页并抓取多个页面的数据。...有限的JavaScript渲染内容处理能力：虽然Axios可以用于获取页面的初始HTML内容，但它无法执行JavaScript和处理动态渲染的内容，这可能需要使用其他库（如Puppeteer或Nightmare

2812 0

—— 自定义 Pjax 提升页面加载速度

分析以我使用 Miracle 为主题的博客为例，进入首页，按 F12 查看页面 Elements....载入 HTML 我是用 Cheerio 模块帮我完成这一工作。...= path.resolve('public/'); 定义一个 parse function，打开文件并解析相关信息，顺便把不是 HTML 的文件排除掉。...为了实现无刷新跳转，必须要使用 pushState() 更改。执行 JavaScript 方面使用 eval() 函数。...如果你也在使用 Pjax，不妨试试看。还有一些错误如果你定义了 onload 等事件，页面没有刷新即代表没有变化，你需要在 $pjax_jump() 中简单清除一下这些信息。

2.4K2 0

python动态加载内容抓取问题的解决实例

问题分析动态加载的内容通常是通过JavaScript在页面加载后异步获取并渲染的，传统的爬虫工具无法执行JavaScript代码，因此无法获取动态加载的内容。这就需要我们寻找解决方案来应对这一挑战。...一个常用的库是Puppeteer，它可以模拟浏览器环境，加载页面并执行其中的JavaScript代码。通过等待动态内容加载完成，我们可以有效地获取动态加载的内容。...，获取页面内容，在这个示例中，我们使用了axios库来发起对腾讯新闻网页的GET请求，并获取了页面的HTML内容。...HTML内容});2.解析HTML：使用类似cheerio这样的库来解析HTML，定位到动态加载的内容所在的位置，在这个示例中，我们使用了cheerio库来解析HTML内容，通过载入页面内容并使用类似jQuery...在这个示例中，我们使用了Puppeteer库来模拟浏览器行为，加载页面并执行其中的JavaScript代码。通过等待动态内容加载完成，我们可以有效地获取动态加载的内容。

2161 0

XSS 攻击与防御

HTML 节点内容比如在评论页面，如果评论框中写入以下的内容并执行了（弹出文本框），这就是一个 XSS 漏洞。...白名单过滤可以使用 JavaScript 中的一个第三方库：cheerio。可以使用 npm 进行下载或者 script 标签进行引入。...const cheerio = require("cheerio"); // $ 变量就可以像使用 jQuery 一样的选择器去选择 HTML 中的节点了！...whiteList[elem.name]){ $(elem).remove(); return; } // 遍历符合条件的标签中的属性...如果检测到跨站脚本攻击，浏览器将清除页面并使用 CSP report-uri 指令的功能发送违规报告（reporting-uri 就是发送违规报告的 URL 站点）。

3.8K2 0

基于Node.js实现一个小小的爬虫

3.代码编写：按照预定的方案，考虑到node.js的使用情况，通过其内置http模块进行页面信息的获取，另外再通过cheerio.js模块对DOM的分析，进而转化为json格式的数据，控制台直接输出或者再次将...就是先将页面的数据load进来形成一个特定的数据格式，然后通过类似jq的语法，对数据进行解析处理） var cheerio = require('cheerio'), $ = cheerio.load...进入项目目录，执行npm install安装所需依赖包。...52 return; 53 } 54 for(var i=0;i<data.jobs.length;i++){ //遍历数据并提取处理...3.测试结果 1）首先在控制台中执行 npm start ? 2) 接下来在浏览器输入http://localhost:3000/开始访问 ?

1.1K2 0

【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」

主要的逻辑代码在 server.js 中，建议边对照代码边往下看。...编写爬虫代码 Step.1 页面分析现在我们一步一步来完成我们的爬虫，目标是爬取博客园第1页至第200页内的4000篇文章，获取其中的作者信息，并保存分析。 ? ?...取数据，使用方式跟 jquery 一样一样的。...如果你是要抓取三个源的数据，由于你根本不知道这些异步操作到底谁先完成，那么每次当抓取成功的时候，就判断一下count === 3。当值为真时，使用另一个函数继续完成操作。...Step.3 爬取具体页面内容使用 async 控制异步并发数量获取到4000个 URL ，并且回调入口也有了，接下来我们只需要在回调函数里继续爬取4000个具体页面，并收集我们想要的信息就好了。

1.4K8 0

Node.js爬虫实战 - 爬你喜欢的

做个新闻类网站没有数据源咋办？研发GG：爬虫随时准备为您服务！...使用爬虫，拉取爱豆视频所有的评价，导入表格，进而分析评价使用爬虫，加上定时任务，拉取妹子的微博，只要数据有变化，接入短信或邮件服务，第一时间通知使用爬虫，拉取小说内容或xxx的视频，自己再设计个展示页...使用爬虫，定时任务，拉取多个新闻源的新闻，存储到数据库开篇第三问：爬虫如何实现嘞？...HTML数据结构注意观察页面HTML的结构，排行榜推荐的小说的HTML结构是 bdo#s-dd 元素 dd 子元素 - 每一部小说 a 目录信息 img...将字符串导入，使用cheerio获取元素 let $ = cheerio.load(html.text); // 3.

3.3K3 0

Taro + 小程序云开发实战|日语用例助手

我结合这两者，使用cheerio和superagent 抓取了用例.jp，开发了一个《日语用例助手》。...} } } 每个云函数可视为一个单独的服务，如果需要安装第三方依赖，只需要在该目录点击右键，选择在终端中打开, 并 npm install依赖即可。...1.3 使用tcb-router管理路由 tcb-router 是腾讯云团队开发的，基于 koa 风格的小程序·云开发云函数轻量级类路由库，主要用于优化服务端函数处理逻辑。...在进行一些server端渲染的页面以及一些简单的小页面的爬取时，cheerio十分好用且高效。...在使用 superagent 抓取了网页内容后，可以使用如下方式解析页面代码: // const cheerio = require('cheerio'); // ...

2.2K5 0

编写NodeJs脚本实现接口请求

1.6K2 0

Node.js 小打小闹之爬虫入门

我们来看分析一下，人为统计的流程：新建一个 Excel 表或文本文件；打开浏览器，访问前端修仙之路；浏览当前页，复制所需的信息，如文章标题、发布时间、文章分类及字数统计等；若存在下一页，则访问下一页，然后执行上面的第...由于博客上使用的是静态网页，因此我们只要能获取网页的 HTML 内容就跨出了一大步，在获取页面内容后，我们就能对网页进行解析，进而提取并保存所需的信息，之后如果发现还有下一页的话，我们就重复上述的流程。...choked... }); 下面的重头戏就是数据抽取了，在编码前我们先来使用 Chrome 开发者工具分析一下页面结构： ?...，剩下的任务就是解析剩余的页面和数据保存。...当然 uri 数量较少的情况下，是可以直接使用数组，使用生成器的主要目的是避免出现大数据量下的内存消耗问题。

9832 0

学习服务端JavaScript这个有名的Node.js

node app.js 命令执行成功了：三、尝试网络爬虫，听说很*：这次要写到详细一些： 1、新建文件夹并打开： mkdir nodesprider && cd nodesprider...2、实例化项目建立package.json: npm init 生成package.json; 3、安装三个依赖并配置信息到package.json中： npm install express...cheerio(https://github.com/cheeriojs/cheerio ) 大家可以理解成一个 Node.js 版的 jquery，用来从网页中以 css selector 取数据，使用方式跟...4、爬虫逻辑代码： // 引入依赖 var express = require('express'); var superagent = require('superagent'); var cheerio...}); app.listen(3000, function (req, res) { console.log('app is running at port 3000'); }); 5、执行

1.4K2 0

Node.js爬虫之使用cheerio爬取图片

---爬取百度logo 如果是之前的方式我们要写一堆正则才能匹配到某网站的logo,而使用了cheerio后我们可以进行DOM操作直接获取数据可以看到终端直接输出了百度logo 案例爬取表情包...安装cheerio npm i cheerio 如图我们要爬取该网站的表情包分析 1.我们以列表页为起始页，该页面展示了表情包的分类，我们要获取所有分类的url 2.获取分类名称，根据分类名称创建文件夹...但是我们只爬取了单页的图片，一般网站都会涉及到分页，接下来我们将分页的数据一并爬取分析 1.我们从起始页就可以获取到该网站的总页数 2.循环总页数获取数据每次url后缀+1 https://www.fabiaoqing.com...allPage;i++){ getData('https://www.fabiaoqing.com/bqb/lists/page/'+i+'.html') } } 这里我们获取总页面进行循环...){ return new Promise((resolve,reject)=>{ setTimeout(function(){ resolve("成功执行延迟函数

1.3K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云