使用Puppeteer在<h2>标签之间抓取<p>标签

Puppeteer是一个基于Node.js的开源工具，用于控制和自动化Chrome浏览器。它提供了一组API，可以模拟用户在浏览器中的操作，例如导航、点击、填写表单等。使用Puppeteer可以方便地进行网页抓取和数据提取。

在使用Puppeteer抓取网页内容时，可以通过以下步骤实现在<h2>标签之间抓取<p>标签：

首先，需要安装Puppeteer。可以通过npm命令进行安装：npm install puppeteer
在代码中引入Puppeteer库：const puppeteer = require('puppeteer');
创建一个异步函数，用于执行抓取操作：

async function scrapeContent() {
  // 启动浏览器
  const browser = await puppeteer.launch();
  // 创建一个新页面
  const page = await browser.newPage();
  // 导航到目标网页
  await page.goto('目标网页的URL');
  
  // 使用evaluate函数在页面上下文中执行DOM操作
  const result = await page.evaluate(() => {
    // 获取所有的<h2>标签
    const headings = document.querySelectorAll('h2');
    const content = [];
    
    // 遍历<h2>标签
    for (let i = 0; i < headings.length; i++) {
      const heading = headings[i];
      const nextElement = heading.nextElementSibling;
      
      // 如果下一个兄弟元素是<p>标签，则将其内容添加到结果数组中
      if (nextElement && nextElement.tagName === 'P') {
        content.push(nextElement.textContent);
      }
    }
    
    return content;
  });
  
  // 打印抓取到的内容
  console.log(result);
  
  // 关闭浏览器
  await browser.close();
}

// 调用抓取函数
scrapeContent();

在上述代码中，我们使用document.querySelectorAll('h2')获取所有的<h2>标签，然后遍历这些标签，判断其下一个兄弟元素是否为<p>标签，如果是，则将其内容添加到结果数组中。最后，通过console.log(result)打印抓取到的内容。

需要注意的是，上述代码中的"目标网页的URL"需要替换为实际要抓取的网页的URL。

推荐的腾讯云相关产品：腾讯云函数（Serverless Cloud Function），它是一种无服务器计算服务，可以在云端运行代码，无需关心服务器的配置和管理。腾讯云函数可以与Puppeteer结合使用，实现在云端自动化抓取网页内容的需求。产品介绍链接地址：腾讯云函数

在Puppeteer中用锚点链接抓取html中的段落

我正在试着用木偶人在网站上刮一段文字。现在我已经可以阅读两个h2标签之间的p标签了，只有这段文字还包含有内部链接的单词。使用当前代码，我获得了一个数组中的纯段落文本作为输出，但实际上我需要在其中包含带有<a href="#"> </a>标记的文本。木偶操纵者可以做到吗？我当前的段落抓取代码是： const puppeteer = require('puppeteer'); const plaatsengids = async () => { const browser = await puppeteer.launc

浏览 13提问于2020-12-15得票数 0

1回答

使用Puppeteer在<h2>标签之间抓取<p>标签

、、、

我是木偶操纵者的新手，还在学习如何抓取网页。网页的结构是这样的：我要做的是抓取<h2> Status </h2>和<h2>Naam</h2>之间的所有<p>标记。使用我当前的代码，我可以抓取这个页面上的所有<p>标记。只是现在我尝试抓取<h2> Status </h2>之后直到<h2>Naam</h2>的所有<p>标记。我当前的代码： const puppeteer = require('puppeteer'); const plaat

浏览 29提问于2020-05-25得票数 0

回答已采纳

1回答

使用puppeteer进行web抓取找不到CSS标记

、、

我开始学习用javascript和puppeteer进行web抓取。我找到了一个我喜欢的视频，展示了木偶师，我试图抓取与视频相同的信息(link)。页面与视频有一点不同，所以我使用了我认为正确的标签。当我尝试查找"h3"标记时，问题出现了。标记存在于DOM中，但是我的代码拒绝确认它的存在，但是在查找"h2"标记时工作得“很好”。我想知道的是为什么我的代码没有检索到它。网页：https://marketingplatform.google.com/about/partners/find-a-partner?utm_source=marketingplatf

浏览 19提问于2021-02-07得票数 0

回答已采纳

1回答

带有puppeteer的查询选择器返回空数组

、

我使用Puppeteer编写了一个简短的抓取器，用于从页面中提取一些标题。虽然我可以抓取单个元素，就像一个单独的h2，但尝试抓取和返回一组项并不成功。主要是我试图确保我的查询选择器正常工作，我可以在我的Chrome dev工具中运行Array.from(document.querySelectorAll('div.landscape h3.title')).map(partner => partner.textContent)并获得我想要的数组，但在我的脚本中运行它会返回一个空的数组[]。如前所述，只使用一个单独的querySelect('h2')似乎

浏览 23提问于2019-06-16得票数 1

回答已采纳

1回答

如何在抓取puppeteer和NodeJs时获取div标签的内容

、、

我听说过一个叫做puppeteer的库，它在抓取网页时很有用。所以我决定抓取一个游戏网站的内容，这样我就可以存储它的数据，然后再浏览它。但是在我复制了div标记的XPATH之后，我希望puppeteer抓取它的内容，它返回的是空字符串“请注意我做错了什么”。这是我试图抓取here的url 我想刮掉显示6个不同颜色球的结果的div标签。这样我就可以每隔45秒得到这些颜色的数量。 const puppeteer = require("puppeteer"); async function scrapeData(url){ const browser = await pu

浏览 137提问于2021-01-08得票数 0

2回答

XPaths:选择特定元素

、、

我想从具有多个h2和p标记的div中选择特定h2标记下的p标记。下面是它的示例代码： <div class="main"> <h2></h2> <p></p> <p></p> <p></p> <h2></h2> <p></p> <p></p> <p></p> <h2></h2>

浏览 1提问于2019-11-11得票数 1

1回答

无法使用NodeJS、木偶师和document.querySelector找到任何标记

、、、、

我有一个NodeJS类型记录项目，我正在尝试从一个动态呈现的网站(不是静态HTML，而是通过多次请求后端获取一些数据和呈现网页)获取所有的'p‘标记。我使用的是类型记录，库中有"es6“、"dom”，我有以下代码(到目前为止，这是项目中的所有代码)： import puppeteer from 'puppeteer'; const getLinks = async () => { const browser = await puppeteer.launch(); const [page] = await browser.pages

浏览 1提问于2022-04-10得票数 0

1回答

抓取https://www.nytimes.com.how时出错，我能解决吗？

、、、、

我正在尝试使用下面的code.But在nodejs中使用pupeteer库抓取https://www.nytimes.com，它给出了错误thar document is undefined.How我是否成功地使用无限滚动抓取了所有数据？ static async listenNewsUpdate() { ScrapeModel.browser = await puppeteer.launch({ headless: false, }); const page = await ScrapeModel.brow

浏览 12提问于2020-10-31得票数 0

1回答

试图在两个h2标记之间获取所有p标记文本

<h2><span>Title1</span></h2> <p>text I want</p> <p>text I want</p> <p>text I want</p> <p>text I want</p> <h2>Second Title I want to stop collecting p tags after</h2> 我可以通过标识h2中的文本来获取p标记，然后得到前面的-sibling：：p，但是这会将所有的p标记

浏览 2提问于2013-08-10得票数 2

回答已采纳

1回答

如何使用puppeteer返回新页面？

、、

我正在使用nodejs puppeteer来抓取一个网站。我遇到过这样一种情况:我需要返回一个新的标签，但是我找不到在puppeteer中这样做的方法(我可以通过ctrl +单击浏览器的go back按钮在windows上手动生成它) 下面是一个示例，我需要从一个特定页面开始并行启动多个页面 const page = await browser.newPage(); await page.goto(myWebsiteUrl); // going through some pages.. for (let i = 0; i < numberOfPagesInParallel; i++)

浏览 86提问于2020-11-01得票数 1

1回答

Puppeteer:从点击输入标签按钮后不刷新的页面抓取html

、、、

我正在尝试抓取一些html后，输入标签按钮被点击。我使用page.evaluate()单击按钮，因为page.click()似乎不适用于输入标记按钮。我尝试了在puppeteer启动选项中使用headless:false进行可视调试，以验证在单击按钮后浏览器确实导航到了该位置。我不确定为什么page.content()在按钮被单击之前返回html，而不是在事件发生后返回html。 const puppeteer = require('puppeteer'); const url = 'http://www.yvr.ca/en/passengers/flights/de

浏览 44提问于2019-02-18得票数 0

回答已采纳

2回答

抓取网站以检索html元素和相关样式

、、、、

我试图抓取网站上所有带有标签的元素，例如$('header')和它们的相关样式。本质上是遍历每个元素，获取与其相关的css，并将其全部转储到一个文件中。目前，我已经设置了以下内容： // npm install --save request request-promise cheerio puppeteer const rp = require("request-promise"); const puppeteer = require("puppeteer"); var fs = require("fs"); const $

浏览 23提问于2019-11-11得票数 0

4回答

在Puppeteer中进行Web抓取时如何处理验证码？

、、、

我正在使用Puppeteer进行Web抓取，我刚刚注意到，由于我在计算机上的访问量，我试图抓取的网站有时会要求验证码。验证码表单如下所示：所以，我需要帮助来解决这个问题。我一直在考虑将验证码表单发送到客户端，因为我使用Express和EJS将值发送到我的索引网站，但我不知道Puppeteer是否可以发送类似的东西。有什么想法吗？

浏览 1提问于2019-04-03得票数 15

1回答

有没有办法建立一个正则表达式模式，其中一个特定的OR操作符必须与另一个OR操作符匹配？

、

基本上我有一个简单的HTML文件，下面是一个例子： <!DOCTYPE html> <html> <head> <title>Title</title> </head> <body> <p>Text</p> <h2>Text H2</h2> <p>Text 1</p> <h3>Text H3</h3> </body> </html> 我想要做的是获

浏览 12提问于2019-12-20得票数 0

回答已采纳

2回答

在服务器云上运行的特定网站上的Puppeteer超时

、、、、

我已经编写了一个在我的计算机上运行良好的node.js web scraper代码，然而，当我部署到运行Debian的Google Cloud VM实例时，它返回了一个特定网站的超时错误。我已经尝试了许多不同的设置，但似乎没有一个工作。我相信当我从google云服务器上运行时，我正在尝试抓取的网站会阻塞我的代码，但当我从我的计算机上运行时，却不会。抓取部分在我的电脑上工作得很好。Puppeteer查找HTML标记并检索信息。 const puppeteer = require('puppeteer'); const GoogleSpreadsheet = require(

浏览 3提问于2021-01-11得票数 1

1回答

如何使用web抓取中的变量？

、、、

我使用以下代码抓取了一个作业门户： const puppeteer = require('puppeteer') export default function scrape() { ;(async () => { const browser = await puppeteer.launch() const page = await browser.newPage() await page.goto('https://www.example.de/jobs/javascript') const position =

浏览 3提问于2018-11-22得票数 0

1回答

如何在包含连续段落的连续标题之间添加空格，减少标题和副标题之间的空间

、

我有一个带有连续段落标签的多个标题。每个段落和标题之间的空格应该非常小，因为标题之间的间距应该很高。我不想对标签使用div或任何类名，因为我有很多标题。下面是我的代码，任何人都可以帮我。 h2 { margin-bottom: 100px; } h2, p { margin: 0px; padding: 2; } <h2>heading1</h2> <p>paragraph1</p> <h2>heading2</h2> <p>paragraph2</p> <h2>hea

浏览 2提问于2022-05-11得票数 0

回答已采纳

1回答

木偶机元素是控制台，但在木偶机中没有定义。

、、、

我正在尝试抓取一个在h3标签下有一个a标签的网页。我可以得到a标记，但是当我试图得到innerText of h3时，我得到了一个undefined值。这就是我想爬的东西： const puppeteer = require('puppeteer'); const pageURL = "https://producthunt.com"; const webScraping = async pageURL => { const browser = await puppeteer.launch({ headless: false,

浏览 6提问于2020-05-27得票数 0

回答已采纳

2回答

如何使用漂亮的汤刮掉P标签

、、、

我已经设法用带有H2 / Class / Div标签的漂亮汤中的findAll函数创建了一个网站。(例如soup.findAll('div'，{'class‘：'price'})，但是网站的一部分有P标签，我不知道该如何抓取。它有以下几点 Listing history <p class="top"> <strong>First listed</strong><br> 800 on 我想要800，但是Div Class "Sidebar sbt“在网

浏览 0提问于2017-06-06得票数 0

1回答

Page.evaluate()返回undefined，但语句在Chrome devTools中有效

、

我正在尝试获取必应图片搜索中所有图片的src值。我用的是木偶戏。我写了一个选择器来抓取每个图像标签，它在Chrome DevTools中工作。但是，当我在代码中编写它时，它就不工作了- const puppeteer = require("puppeteer"); (async () => { try{ let url = `https://www.bing.com/images/search?q=cannabis` const browser = await puppeteer.launch({headless: false}

浏览 55提问于2019-05-16得票数 1

回答已采纳

2回答

使用漂亮汤刮取数据

、、

在这个html代码中使用beautifulSoap抓取数据时，有两个<h2>标记，但我想从第二个<h2>标记中提取数据。那我该怎么做呢？以此类推，如果有相同标签的倍数，我想从任何一个标签中提取数据，我该如何做呢？代码： <h2>Video Instructions For Making Soft Idlis</h2> <div class="embed-responsive embed-responsive-16by9"> <iframe class="embed-responsive-item"

浏览 2提问于2017-12-08得票数 0

回答已采纳

2回答

Python :循环遍历元素，从函数中去掉空格

、

我正在尝试编写一个函数，我可以重用这个函数从被刮掉的元素中去掉空格。我正在抓取h2、li和p标签；它们目前以<tag> string </tag>的形式返回，我希望删除空白并使用*.get_text(strip=True)保存内容。 h_content = soup.select('h2')将存储找到的所有h2标记。 p_content = soup.select('p')将存储找到的所有p标记。诸若此类。我一直在尝试，但不确定如何将项目返回到原来的位置，也就是说，在这里返回它们--> *_content。 def

浏览 3提问于2022-02-07得票数 0

回答已采纳

2回答

从新打开的页面傀儡中获取标题

、

我正在尝试获得一个新的选项卡，并用puppeteer抓取该页面的标题。这就是我的东西 // use puppeteer const puppeteer = require('puppeteer'); //set wait length in ms: 1000ms = 1sec const short_wait_ms = 1000 async function run() { const browser = await puppeteer.launch({ headless: false, timeout: 0}); const page =

浏览 0提问于2017-11-16得票数 4

2回答

木偶人找不到选择器

、、

我正在尝试使用Puppeteer进行一些web抓取，但是脚本似乎找不到我正在寻找的选择器。基本上是这样的代码： const puppeteer = require('puppeteer'); let scrape = async () => { const year = 18; const browser = await puppeteer.launch({headless: false}); const page = await browser.newPage(); await page.goto('https://cobbcounty.org/index.

浏览 0提问于2018-05-30得票数 10

回答已采纳

3回答

抓取PHP生成的元素中包含的文本

、、

我在抓取一些PHP代码生成的header标记中的实际文本时遇到了问题。这是我抓取的页面的一部分。 <div class="container"> <div class="majorContainer"> <h2>Your results for: <small>"tables"</small></h2> <hr /> <div class='accordionButton'> <h3 sty

浏览 0提问于2012-03-30得票数 1

回答已采纳

1回答

XPath只排除特定数量的html标记。

<div class="page-main-content content-style"> <h1 class="title home-title">What’s On This Week <span class="">in the Best Sports Bar:</span></h1> <div class="page-main-content-inner"> <p class="">Now open and servin

浏览 3提问于2022-08-04得票数 0

回答已采纳

2回答

XPATH -在某个html元素后停止抓取

我使用这个XPATH查询来尝试从"ASQ Package Price“中获取前三项： //h2[contains(., 'ASQ Package Features')]/following-sibling::p 但它也抓取了其他3个项目，所以我最终得到了示例1示例2示例3示例4示例5示例6 我只想：示例1示例2示例3 如何防止XPATH抓取我不想要的三个元素-在本例中，它似乎需要在<hr>标记处停止？ <div itemprop="articleBody"> <h2>ASQ Package Price</h

浏览 0提问于2020-09-20得票数 1

2回答

抓取背景-使用木偶操纵者的图像

、、

有没有人能解释一下我如何使用Puppeteer从网页上抓取背景图片？图像位于image-background类中，但其中没有存储任何内容。jpg URL位于 element.style {背景图像: url('') 如何抓取网址''？谢谢

浏览 1提问于2020-06-05得票数 0

1回答

使用BeautifulSoup获取两个h2标头之间的文本

、

我想要抓取描述之后和下一个标题之前的文本。我知道： In [8]: soup.findAll('h2')[6] Out[8]: <h2>Description</h2> 然而，我不知道如何抓取实际的文本。问题是我有多个链接来做这件事。有些人有p： <h2>Description</h2> <p>This is the text I want </p> <p>This is the text I want&l

浏览 27提问于2017-03-16得票数 3

回答已采纳

1回答

如何让木偶人抓取动态类属性并将其从页面上的元素textContent

、、

我试图从一个游戏网站抓取一个特定的Div标签的内容。首先，当您访问站点时，div标签将包含带有未完成类的空内容。示例 <div class="ball ball-"><div> 然后，每隔45秒，将动态添加textContent和类属性 <div class="ball ball-red">45<div> 每隔45秒，textContent和类属性就会更改为另一个值。起初，它可能看起来像这样 <div class="ball ball-red">23<div>

浏览 14提问于2021-02-09得票数 0

回答已采纳

2回答

一次匹配线和提取内容

、

我想用h2和p找到行，并得到标签之间的内容. <main>Nothing</main> <h2>Hello</h2><p>World</p> <h2>Bells</h2><p>Walls</p> <h2>Jelly</h2><p>Minus</p> <p>Fluff</p> ..。到一个选项卡分隔的列表中： Hello World Bells Walls Jelly Minus 我目前使用： grep -

浏览 0提问于2018-04-08得票数 1

4回答

如何使用XPath选择两个节点之间的所有元素

、、

我是如何在第1和第二个h2之间选择所有(所有可能的节点)的？它们之间可以有n个节点，也可以有m个h2标记。节点不一定包含在HTML单元中，所以选择器只需抓取它们。 <html> <h2>asdf</h2> <p>good stuff 1</p> <p>good stuff 2</p> <p>good <a href="#">asdf</a>stuff n...</p> <h2>qwer</h2> <p&g

浏览 2提问于2012-03-01得票数 5

回答已采纳

1回答

当尝试显示来自服务器端的返回值时，在<p>标记上显示undefiend

我有一个函数可以抓取youtube缩略图的src，它工作得很好。当我在客户端显示抓取的src时，问题开始出现，thumbnail2和thumbnail3的src在我的<p>标记中都显示为未定义。但是，当我只从服务器端返回data1，而不是两个data1, data2都返回时，它可以正常工作，并在客户端显示抓取的src。我不知道是什么导致了这一切。任何帮助都是非常感谢的。提前谢谢。 const puppeteer = require('puppeteer'); async function scrapeChannel2(url) { const brow

浏览 36提问于2021-04-10得票数 0

回答已采纳

2回答

在需要相同包的多个模块中组织代码会降低Node.js的性能吗？

、

我正在使用Node.js和Puppeteer，我正在使用Puppeteer来抓取多个网站。我正在考虑通过将每个站点实现分离到其自己的文件来组织代码。所以我会有像example.com.js，example2.com.js等等其中的每一个都将需要相同的模块(puppeteer/jsdom)，并将导出包含变量和函数的对象。这样，我就可以在index.js文件中导入所有这些模块。我读过关于Nodejs缓存模块的文章，这种组织代码的方式是标准的，然而，在我的例子中，假设我有100个不同的网站需要抓取，那么我将有100个模块需要(puppeteer/jsdom)在每个模块中，所以如果Nodejs缓存

浏览 1提问于2021-04-11得票数 1

1回答

Symfony DOM Crawler:查询与当前项目匹配的标签

、、

我正在使用Symfony DOM爬虫抓取一些网站，我遇到的一个问题是，如果我有一个包含多个标记的抓取目标，例如： $content['html'] = $crawler->filter(' #content > div.container > div.row > div > p:nth-child(n+4), #content > div.container > div.row > div > h3, #content > div.container > d

浏览 15提问于2018-07-21得票数 0

1回答

刮擦标记对象和聚合值

、、

我正在努力学习如何做网络刮擦和刮刮似乎是一个好的地方开始。我想出了如何从标签中抓取基本文本信息，但现在我想从标签本身抓取信息。下面是一个例子。我正在使用这个url：我想弄清楚这个包的名字和价格。当查看DOM结构时，有两个标记： <h2 class="product-name"> <nap-price class="product-price" price:{...}> 我想刮掉h2标签的文本值和午睡价格标签中的价格对象。并生成这样的对象： { name: "from <h2> tag" price:

浏览 0提问于2019-05-26得票数 0

回答已采纳

1回答

抓取-无法将多个<p>标记中的URL正确提取到项目列表中

、、、、

我几乎是Scrapy和Python的新手，所以如果这个问题听起来很愚蠢，请容忍我。我试图抓取的内容都在网站上的一个或多个段落标签中。如果字段(URL)位于多个段落标记中，我将很难提取它们。如果每个块的每个段落标签只有一个链接，或者在表格单元格中，我可以很容易地获得它们。但在这种情况下，即使花了一天多的时间，我也无法从多个段落标签中提取这些多个链接。我试图提取的内容具有以下HTML源结构： <p class="date">June 30, 2014 </p> <h2> SOME TITLE 1 </h2> <p> SO

浏览 3提问于2014-08-12得票数 2

1回答

木偶人Ubereats.com表单输入不起作用

、、、、

我正在尝试用木偶人和谷歌云功能在UberEats上自动化订餐。但是，填写表单位置并单击next将不起作用。我目前使用的是Node.js 8和puppeteer版本2.1.1。 exports.main = (req, res) => { const puppeteer = require('puppeteer'); let selector = 'button[class="c1 cg ch ci bb bc bd cj ch az ao aq bu aj c1 ck cl cm cn co"]'; async function r

浏览 3提问于2020-03-30得票数 1

2回答

抓取用户配置文件并进行排序

、

你好，我正在抓取的网站，有一些数据存储在它的标题和段落标签，像这样 <h2>Name</h2> <p>example</p> <p>example</p> <p>example</p> <p>example</p> <p>example</p> <p>example</p> ---- <h2>Name</h2> ..... 我想要做的是打印这些标记中的所有信息，这是我的代码 for h2 in driv

浏览 41提问于2019-12-10得票数 0

回答已采纳

2回答

Puppeteer当控制台应用程序关闭时，夏普仍然在进程任务管理器中显示许多铬实例

我在使用puppeteer时遇到了一个问题:我构建了一个控制台应用程序来使用puppeteer抓取数据，但当我的应用程序关闭时，我仍然在进程任务管理器中看到许多铬元素。你能帮我解决这个问题吗？

浏览 1提问于2018-11-19得票数 4

1回答

抓取频谱社区数据的最好方法是什么？

、

我想要抓取频谱通道数据。我正在考虑使用像Puppeteer这样的抓取工具，以用户身份登录并抓取某个频道。我能想到的一个问题是，在加入之前，我可能无法访问所有聊天日志的历史记录。如何解决这个问题？

浏览 12提问于2020-07-11得票数 0

1回答

如何在抓取网站的同时持续监听新项目

、、

我正在使用puppeteer抓取一个正在实时更新的网站，以便在其他地方报告最新的项目。目前，我认为实现这一点的方法是在我的异步抓取上运行一个setInterval调用，并比较最后一项是否发生了变化，每30秒检查一次。我想一定有比那更好的方法来做这件事。下面是我当前的代码： const puppeteer = require('puppeteer'); playtracker = async () => { console.log('loading'); const browser = await puppeteer.launch({});

浏览 13提问于2021-01-01得票数 0

4回答

jQuery获取除子元素X以外的儿童的HTML

、、、、

如何使用jQuery/Javascript来选择第一个<p>中两个<div class="description元素的HTML？雷吉斯也很好。这个jQuery选择实际上是在Node.js中对cheerio对象执行的。使用 $( $('.description')[0] ).children().not('h2').html() 似乎只抓取了文本 Foo Bar 而不是 <p>Foo</p> <p>Bar</p> HTML: <div class='description&

浏览 9提问于2015-12-12得票数 3

1回答

使用Puppeteer抓取内联div值

、

我正在用木偶做实验。我可以读取标签之间的数据，等等。现在我想知道我是否也可以抓取内联元素，示例div是这样的： <div class="distance-info-text distance font-xs-light" data-lat="50.912758301334" data-lng="6.019417197437" data-nid="153">83.8 km</div> 例如，现在我想要内联元素： data-lat = "50.912758301334" da

浏览 34提问于2020-11-04得票数 0

1回答

通过什么库以及如何通过标题和段落标记来抓取HTML上的文本？

、、、、

我的输入将是任何没有固定HTML结构的web文档。我想要做的是提取标题中的文本(可能是嵌套的)及其后面的段落标记(可能是多个)，并将它们作为对输出。一个简单的HTML示例可以是： <h1>House rule</h1> <h2>Rule 1</h2> <p>A</p> <p>B</p> <h2>Rule 2</h2> <h3>Rule 2.1</h3> <p>C</p> <h3>Rule 2.2</h3>

浏览 10提问于2018-07-28得票数 0

回答已采纳

1回答

木偶人获取在新选项卡中打开的网页的url

、

我正在写一个网络抓取器来验证体育赛事的日期。一个网站没有在列表中显示体育赛事url，而是像这样的链接：等，一旦点击，新的标签将与赛事网站一起打开。我想要实现的是得到这个网站的网址在新的标签打开。我已经成功地点击了木偶人的链接，网站正在新的标签页中打开，但我不知道如何获取url信息 const browser = await puppeteer.launch({ headless: false, 'args' : [ '--no-sandbox', '--disable-setuid-sandbox&

浏览 15提问于2021-03-01得票数 0

回答已采纳

1回答

木偶人无法在无头模式下抓取数据，但可以在非无头模式下抓取数据。如何修复？

、、

当我在headless: false模式下运行我的节点应用程序接口时，它可以打开一个浏览器实例，我可以获取数据。但是当我使用headless: true时，它会显示访问被拒绝，并且没有抓取数据。下面是我的代码。 (async () => { const browser = await puppeteer.launch({ headless: false }); const page = await browser.pages(); await page[0].goto(url); const my = await page[0].evaluate(() => { le

浏览 35提问于2021-05-05得票数 2

回答已采纳

3回答

Chrome无头木偶操纵者CPU太多

、、、、

我在nodejs中有一个抓取算法，带有puppeteer，它同时抓取5个页面，当它完成一个页面时，它从队列中拉出下一个url，并在同一页面中打开它。CPU始终为100%。如何让木偶戏演员使用更少的cpu？此进程在具有4 4gb和2个vCPU的digitaloceans上运行。我使用一些参数启动了puppeteer实例，试图使其更轻，但什么也没有发生 puppeteer.launch({ args: ['--no-sandbox', "--disable-accelerated-2d-canvas","--disable-gpu"],

浏览 0提问于2018-02-27得票数 22

1回答

Puppeteer:如何下载整个网页以供脱机使用

、、、、

我如何用Google的Puppeteer抓取整个网站，所有的CSS/JavaScript/媒体都完好无损(而不仅仅是HTML)？在成功地尝试了其他抓取工作之后，我想它应该能够。然而，通过在线查看许多优秀的示例，没有明显的方法来做到这一点。我能找到的最近的电话是 html_contents = await page.content() 并保存结果，但这会保存一个没有任何非HTML元素的副本。有没有办法保存网页以供Puppeteer脱机使用？

浏览 60提问于2019-02-22得票数 14

3回答

循环遍历包含段落标记的div标记

、、、

我试图从一个汽车博客中抓取信息，但是我不能遍历包含段落标签的div标签。 driver.get("https://www.autocar.co.uk/car-news") driver.maximize_window() for i in range(3): i+=1 info = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.XPATH, f'//*[@id="page"]/div[2]/div[1]/div[1]/div[2]

浏览 26提问于2021-09-13得票数 0