使用axios/cheerio创建网页抓取器；不能理解函数的其余部分

要创建一个使用axios和cheerio的网页抓取器，你需要了解这两个库的基本概念以及它们如何协同工作。

基础概念

axios: 是一个基于Promise的HTTP库，可以用在浏览器和node.js中。它非常适合进行网页内容的HTTP请求。

cheerio: 是一个快速、灵活且实现了jQuery核心功能的轻量级库，可以在服务器端使用它来解析和操作HTML文档。

创建网页抓取器的步骤

发送HTTP请求: 使用axios获取网页内容。
解析HTML: 使用cheerio加载获取到的HTML内容，并进行解析和数据提取。

示例代码

以下是一个简单的网页抓取器示例，它使用axios获取网页内容，并使用cheerio提取页面中的标题：

const axios = require('axios');
const cheerio = require('cheerio');

// 定义抓取网页内容的函数
async function scrapeWebPage(url) {
  try {
    // 使用axios发送GET请求获取网页内容
    const response = await axios.get(url);
    const html = response.data;

    // 使用cheerio加载HTML内容
    const $ = cheerio.load(html);

    // 提取页面标题
    const title = $('title').text();

    console.log(`网页标题: ${title}`);
  } catch (error) {
    console.error('抓取网页时发生错误:', error);
  }
}

// 调用函数抓取指定网页
scrapeWebPage('https://example.com');

应用场景

网页抓取器可以用于多种场景，如：

数据挖掘: 从网站上收集特定数据进行分析。
监控: 定期检查网站内容的变化。
自动化测试: 验证网页内容的正确性。

可能遇到的问题及解决方法

问题: 请求网页时出现超时或网络错误。

解决方法: 可以增加axios请求的超时时间，或者在请求失败时进行重试。

axios.get(url, { timeout: 10000 }) // 设置超时时间为10秒

问题: cheerio选择器无法找到预期的元素。

解决方法: 确保选择器正确无误，或者检查网页结构是否有变化。可以使用浏览器的开发者工具来验证选择器。

问题: 抓取频率过高导致IP被封禁。

解决方法: 设置合理的请求间隔，或者使用代理IP来轮换请求来源。

优势

简单易用: axios和cheerio都提供了简洁的API，易于上手。
灵活性高: 可以根据需要定制抓取逻辑和数据提取规则。
跨平台: axios支持浏览器和node.js环境，cheerio专为服务器端设计。

通过上述步骤和示例代码，你应该能够理解如何使用axios和cheerio创建一个基本的网页抓取器，并解决一些常见问题。如果遇到更复杂的问题，建议详细检查代码逻辑和网络请求的响应情况。

页面内容是否对你有帮助？

有帮助

没帮助

使用axios/cheerio创建网页抓取器；不能理解函数的其余部分

、、、、

有axios/cheerio经验的人能回答这个问题吗？我正在尝试制作一个刮板，但很难让它获得一个选定的div html部分如下所示： <div class="_702d723c dib w-50 bb b--black-10 pr2"><p class="f2874b88 fw6 mb3 mt2 truncate black-80 f4">7.3.2</

浏览 16提问于2020-10-15得票数 0

回答已采纳

1回答

努力抓取多个页面- Cheerio.js

、、、、

我正在尝试使用Javascript和Cheerio创建一个网络爬行器，当我试图从抓取的页面中的url中抓取数据时，我遇到了一些困难。例如，我抓取第一个页面的一些细节(包括链接页面的URL )，然后当我尝试使用回调函数抓取链接页面时，我无法将返回值赋给对象。这两个抓取器单独工作，但是我在让它们异步运行时遇到了问题，并且变量detailsPage总是

浏览 0提问于2020-02-19得票数 0

1回答

从Twitch中抓取数据

、、、、

不幸的是，此信息不能从Twitch API获得。当我去任何游戏(如)时，我可以看到"115,175名追随者·199,041名观众“。然而，当我转到“查看源代码”时，这些信息就不在那里了。我已经尝试使用phantomjs打开站点，但到目前为止我还不能想出如何让该部分渲染。(首选R中的解决方案，但不是强制性的)

浏览 90提问于2019-04-24得票数 0

1回答

当我使用cheerio时，这个选择器出错。

、、、

我使用node、express、cheerio和axios来创建一个简单的网络爬行器。在这个例子中，axios有数据，但是在使用cheerio加载数据后，我得到了这个错误：抓取器代码：app.get('

浏览 27提问于2021-02-16得票数 2

回答已采纳

1回答

无法在函数中应用抓取下一页的逻辑

、、、、

我已经创建了一个脚本，使用axios和cheerio从yellowpages获取不同的商店名称及其相关链接，然后使用这些链接从其内部页面抓取电话和电子邮件。脚本运行得很好。我现在想做的就是使用next page link从下一页抓取内容。我只是不明白如何在getLinks()函数中应用解析和使用下一页的逻辑。目前，这是我正在尝试的： const

浏览 13提问于2021-09-14得票数 3

2回答

如何刮取页面node.js的一部分

、

我对编码相当陌生，我不明白为什么我的代码不起作用。它应该输出"Dominus Empyreus"，尽管它只输出[]。以下是我的当前代码：const cheerio = require('cheerio'); const extractLinksobject to array ]; axios.get('https:

浏览 0提问于2022-07-17得票数 -3

回答已采纳

1回答

从reddit URL获取原始URL

、、

ref=share&ref_source=linkhttp://www.bbc.com/news/av/magazine-39490507/how-princess-diana-changed-attitudes-to-aids使用Javascript，我如何从第一个链接转到原始链接，而不使用Reddit API？

浏览 0提问于2017-09-01得票数 1

2回答

从维基百科中抓取表列的NodeJS程序

、

我认为从维基百科页面中提取列是一个很好的方法。下面是我编译的代码和我正在得到的结果。我在网页上创建了一个基于选择器的

浏览 4提问于2021-11-08得票数 1

回答已采纳

2回答

用vue js进行Web抓取

、、

我期待着用Vue js制作一个网络抓取应用程序。对于上面提到的套餐，我还需要做些什么或更好的选择吗？

浏览 2提问于2020-07-06得票数 1

1回答

如何使用axios和cheerio实现多页抓取？

、、、

你好，我正在使用axios和cheerio来抓取一些数据。我想抓取多个页面，url结构类似example.com/? page =1。我如何用计数器抓取每一个页面？axios({ url: "https://example.com/?

浏览 26提问于2020-01-31得票数 1

回答已采纳

1回答

XMLHttpRequest被CORS策略阻塞，如何在没有访问更改标头的情况下修复

、、、、

我正在做一个项目，其中的一部分要求我从一个特定的页面上抓取一些信息。 let axios = require('axios'); axios.get

浏览 1提问于2019-05-08得票数 2

1回答

访问div下的第一个<ul>元素

、

我是一个网络抓取的新手，我正在尝试使用教程创建一个简单的网络抓取器。我这样做了，然而，我想尝试实现我自己的另一个功能。在链接()中，我试图从“指南”(页面右侧)中获取所有要点。谁知道如何修改我的代码，只访问div下的第一个ul标记，因为现在，它访问所有的ul标记。谢谢你的光临。 const axios = require('axios'

浏览 3提问于2020-07-30得票数 0

1回答

刮除Fandango Node.js

、

上的电影列表嵌套在几个div中，这是否意味着我会执行类似于：$('div[id="page"]').find('div > div > div > div > ul > li').each的操作。有些电影丢失了，ul类的名字在日志中也不一样。这是正常的吗？const axios = require('axios'); const cheerio = requi

浏览 6提问于2019-11-17得票数 1

回答已采纳

1回答

如何使用cheerio抓取动态网站？

、、、、

首先，请理解使用翻译器可能不正确的语法。我将在React环境中使用cheerio来做web抓取。(仅供参考，此代码在抓取其他站点时运行良好)： const cheerio = require("cheerio");}, []);

浏览 30提问于2021-01-04得票数 0

1回答

用NightmareJS和NodeJS进行刮擦

、、

我想把结果保存到我的数据库里。我正在使用NodeJS (sails.js框架) const $ = cheerio.load(data); let title = $('.title')的问题在于它不是浏览器，也不呈现任何javascript呈现的网页<

浏览 1提问于2017-05-30得票数 4

1回答

Vue呈现对象数组

、、、

我正在vue中创建一个基本的应用程序，它使用axios发出get请求，从博客站点获取html数据，并使用来抓取站点中的元素，如博客标题和每篇博客文章的发布日期。但是，我很难将被刮掉的元素呈现到html中。= require('axios')const URL =

浏览 0提问于2018-11-21得票数 3

2回答

NodeJs分页，递归承诺问题

、、、、

我在node.js中用cheerio和axios抓取了多个页面我在承诺方面遇到了困难，如果我点击了最后一页，有人能帮我退还JSON吗？谢谢!const getWebsiteContent = async (url) => { pageNum = getTotalpages($); // Get t

浏览 15提问于2021-04-04得票数 2

2回答

我是Node JS和express的新手，但我正在尝试建立一个提供静态文件的网站。经过一些研究，我发现NodeJS和Express在这方面非常有用。到目前为止，我设法提供了一些位于我的服务器上的静态html文件，但现在我想做一些其他的事情:我有一个指向html页面的URL，在该html页面中，有一个包含一些信息的表。这就是我到目前为止所知道的： 1.在端口8081上运行的节点应用程序，我将通过NGINX反向代理从任何地方进一步访问它(

浏览 0提问于2019-11-11得票数 0

1回答

Node:如何确保函数只在对象创建后才运行？

、

我正在使用nodejs和cheerio从网站上抓取数据，然后它会从这些数据中创建一个对象。然后，它需要获取该对象并在函数中使用它。问题是，我的对象正在创建中，但在cheerio可以正确解析数据并将其放入对象之前，下一个函数已经在运行。下面是我的代码： request(link, function(err, resp, body) {

浏览 0提问于2013-06-07得票数 0

回答已采纳

2回答

如何将node.js脚本输出定向到html页面中的文本区？

、、

我已经创建了两个node.js脚本-一个用于rest请求，另一个用于将输出定向到html页面。request function outputResult(result) {} currentResultOutput.textContent = result;这是我试图指向的html

浏览 0提问于2020-07-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用axios/cheerio创建网页抓取器；不能理解函数的其余部分

基础概念

创建网页抓取器的步骤

示例代码

应用场景

可能遇到的问题及解决方法

优势

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐