Puppeteer:从使用延迟加载的页面抓取整个html_Puppeteer:从点击输入标签按钮后不刷新的页面抓取html_使用简单的HTML Dom从HTML页面抓取数据 - 腾讯云开发者社区

javascript、node.js、web-scraping、puppeteer

我正在尝试抓取网页上的整个html，使用惰性加载。我尝试的方法是一直滚动到底部，然后使用page.content()。我还尝试过在滚动到页面底部之后再滚动回页面顶部，然后使用page.content()。这两种方法都抓住了表中的一些行，但不是所有行，这是我的主要目标。我相信网页使用的是来自react.js的<e

浏览 158提问于2019-05-09得票数 2

1回答

如果源HTML没有包含实际的编号，我如何才能webscrape？

python

嗨，我是电脑研发界的新手。所以我可能会问些愚蠢的问题。我正在尝试构建一个web抓取工具，使用python从韩国统计局( some )收集一些统计数据。因此，我就是这样做的，它保持了返回错误，即"'NoneType‘对象没有属性'find'“import requests from bs4 import BeautifulSouptable", attrs = {"id" : "main

浏览 3提问于2021-02-23得票数 0

1回答

使用cheerio从亚马逊获取问题和答案

node.js、cheerio、amazon-product-api

我想从亚马逊获得产品的所有问答，我使用这个来获得对此产品的所有评论，但我不知道我需要填写的类名是什么，而不是.reviews，以便获得客户的问题和答案。function parseHtml(html) { // Load the reviews const reviews = $(

浏览 10提问于2020-07-04得票数 0

1回答

Puppeteer不会提取所有元素

node.js、puppeteer

我正在用NodeJS编写一个脚本来提取过去24小时内交易最多的加密货币。我想提取一个数组中的Name、ticker和24小时百分比列，如下所示： [{ name: 'Bitcoin', ticker: 'BTC', percentage: '20.62%' },... ] 我的脚本看起来像这样，但是一旦你

浏览 25提问于2021-02-09得票数 0

1回答

如何在动态呈现中向搜索引擎用户代理提供静态HTML服务？

rendering、puppeteer、static-html

我录下了我的URL的预录版本。( a)我净化了CSS。( b)我删除了所有不必要的代码和资源。( c)为了更快的速度，我改变了资源顺序/组织。e)缩小了请求的大小。f)缩小页面大小。但主要的问题是：我有一个rootdomain.com/示例-动态呈现页面。这是原版。而且，我有我的预先录制<e

浏览 4提问于2019-12-10得票数 0

回答已采纳

2回答

如何使用javascript添加的动态内容爬行webPage

javascript、web-crawlers

我想有消息说Google机器人有能力理解我们的javascript代码。这意味着这是可能的，完全抓取一个网页，其中有延迟加载功能启用。我正在使用Apache来抓取网站，但我认为它没有能力在页面向下滚动时获取HTML页面中注入的URL。我看到很多网站都在为性能问题做延迟加载。那么，请有人解释一下，我如何在懒惰的加载下爬行H

浏览 0提问于2012-08-31得票数 5

2回答

puppeteer中页面选择器的奇怪行为

javascript、puppeteer

我试图从我在puppeteer中抓取的页面的DOM中获取一个元素。页面加载后，我调用page.$('.class-name')。它返回一些奇怪的{ ClickTale: {} }形式的对象。当我从chrome控制台调用document.querySelector('.class-name')时，我得到了一个完全不同的对象，它对应于我正在寻找的</em

浏览 10提问于2019-03-16得票数 0

1回答

Puppeteer:如何下载整个网页以供脱机使用

javascript、html、css、web-scraping、puppeteer

我如何用Google的Puppeteer抓取整个网站，所有的CSS/JavaScript/媒体都完好无损(而不仅仅是HTML)？在成功地尝试了其他抓取工作之后，我想它应该能够。然而，通过在线查看许多优秀的示例，没有明显的方法来做到这一点。我能找到的最近的电话是 html_contents = await page.content() 并保存结果，但这会保存一个没有任何非H

浏览 60提问于2019-02-22得票数 14

1回答

WaitUntil不等待/获取WaitForSelectorAsync上的超文本标记语言

puppeteer-sharp

过去在node中使用过puppeteer，但由于某些原因，在锐化版本上遇到了问题。基本上，我正在抓取一个WaitUntil设置为WaitUntilNavigation.Networkidle0的网页，这是最长的等待时间。在我的节点代码中，这可以正确地运行和加载我的网站，但在C#版本中，我得到的页面没有角度加载。从最好的情况来看，我可以断定它不是在等待并返回初始负载

浏览 91提问于2019-04-02得票数 2

回答已采纳

1回答

如何使用木偶师来拍摄几个网站的完整截图？

javascript、node.js、puppeteer、browser-automation

我正在尝试使用Node.js和来截图。我不使用，因为屏幕截图需要包含整个桌面。相反，我正在使用ImageMagick的命令进行屏幕截图。添加延迟是可行的，但并不理想，因为有时页面加载非常慢。问题似乎是没有等待页面完全加载。

浏览 0提问于2019-06-27得票数 3

1回答

使用cheerio nodeJS进行网络抓取

node.js、cheerio

我正试着刮一个网页来尝试使用cheerio的一些技能，但我做不到。我正在使用axios来生成http 请求。{ axios.get('https://www.idealo.es/precios/4102124/the-north-face-men-s-mcmurdo-parka-tnf-black.html

浏览 2提问于2021-01-12得票数 1

回答已采纳

1回答

抓取JS渲染页面的方法？

javascript、node.js

我目前正在使用request-promise npm模块在我的网站上抓取URL列表。这很好地满足了我的需求，然而，我注意到并不是所有的div都会出现，因为有些div是在使用JS之后呈现的。我知道我不能远程运行JS代码来强制呈现，但是有什么方法可以在添加这些元素之后才能抓取页面吗？我目前正在使用Node做这件事，如果可能的话，我更愿意继续使用Node。-1', 'fake.com/li

浏览 5提问于2019-04-17得票数 1

回答已采纳

2回答

木偶师:如何在没有CSS/JS/字体/图像的情况下加载html？

node.js、typescript、google-chrome、puppeteer

我正在使用Puppeteer来抓取一些数据，并且需要在相对较短的时间内访问多个页面。经过观察，我注意到这是相当低效的，因为我只对标记文件中的数据感兴趣，而整个页面中所有的图像、字体和诸如此类的内容都非常缓慢。因此，如果有一种方法可以跳过其他内容类型并使Puppeteer只返回HTML文件内容，那就太好了。这是我的代码： const browser = await

浏览 3提问于2021-11-27得票数 3

回答已采纳

1回答

页面加载后的问候语选择器

javascript、html、node.js、web-scraping、cheerio

我想在这个网站上的url值：还是我的选择错了？请有人帮我检查一下我的选择器，或者我需要为代码做些什么。async function getDetail(res, url) { const <e

浏览 1提问于2021-06-21得票数 0

回答已采纳

1回答

如何获得angular google-charts to puppeteer

angular、google-visualization、puppeteer

我有一个angular应用程序，它使用google-chart angular包装器来生成报表图表。这个示例angular应用程序从elasticsearch查询( REST Api调用)获取数据。Angular应用运行良好，google-chart可视化元素在页面加载时生成。现在我想用puppeteer生成这些图表的pdf。但是puppeteer在pdf中不包含google图表元素。最初我认为问题出在对elasticsearch的Rest API调用

浏览 16提问于2020-05-05得票数 0

回答已采纳

3回答

Chrome无头木偶操纵者CPU太多

node.js、google-chrome、cpu-usage、headless、puppeteer

我在nodejs中有一个抓取算法，带有puppeteer，它同时抓取5个页面，当它完成一个页面时，它从队列中拉出下一个url，并在同一页面中打开它。CPU始终为100%。如何让木偶戏演员使用更少的cpu？ puppeteer.laun

浏览 0提问于2018-02-27得票数 22

1回答

有没有可能用Node.js从多个网站抓取数据？

javascript、node.js、web-scraping

我有一个用JavaScript创建的移动应用条形码扫描器，并想使用网络刮刀中的UPC码来获得产品的信息。 uri: `https://barcodeindex.com/upc/722674120708/`, 应该在URL中输入UPC条形码，而不是只是测试码的长数字console.log($('#it

浏览 7提问于2018-02-14得票数 0

1回答

使用Node js进行Web抓取

javascript、html、node.js、web、web-scraping

我一直在尝试从网站上抓取一些数据，并使用Node js将其显示在我自己的网站上。我已经写了一个运行良好的文件。我可以将它打印到控制台进行验证。我想将网页中的数据显示为HTML元素。const puppeteer = require('puppeteer'); const browser = await puppeteer.

浏览 3提问于2020-08-14得票数 0

2回答

从node js中的html模板创建PDF

javascript、node.js、pdf、wkhtmltopdf、pdfkit

对我来说，最好的方法是渲染html模板，并使用任何第三方库创建一个PDF。我遇到了用ejs渲染HTML和用html-pdf创建pdf的解决方案。虽然它工作得很好，但我遇到了分页符的问题。有一个流行的模块pdfkit。但是它使用自己的概念和过程来渲染pdf。对于node，它不会渲染html文件，但对于python，它会渲染html模板。请告诉我如何使用pdfKit将

浏览 22提问于2020-09-29得票数 2

1回答

在puppeteer中实现滚动到底部

c#、webautomation、puppeteer-sharp

我正在苦苦挣扎，希望有人能给我指明正确的方向。我在一个.net桌面项目中使用puppeteer。我想让to页面加载到puppeteer中以滚动到底部来处理一些延迟加载，我已经找到了几篇文章，比如Puppeteer - scroll down until you can't anymore，其中包含了大量有用的信息，但是对于Javascript -我不知道如何在Puppeteer sharp

浏览 217提问于2020-09-24得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云