使用Puppeteer在循环中抓取多个URL_使用Apify和Puppeteer抓取URL_使用BeautifulSoup抓取多个URL - 腾讯云开发者社区

、、、

我有一组URL可以从中抓取数据： urls = ['url','url','url'...]这就是我要做的： urls.map(async (url)=>{ await page.waitForNavigation({ waitUntil:'networkidle' }); }) 这似乎不需要等待页面加载，访问所有的URL</

浏览 92提问于2017-09-19得票数 25

回答已采纳

1回答

在async函数中使用await Use for循环

、、、

我正在使用puppeteer和node.js来抓取一些数据，但是在尝试循环url列表时遇到了一些问题。当我推送抓取的数据时，我得到了一个错误，说数组没有定义。我认为这个问题与在for循环中使用await有关，但我真的不明白为什么以及如何修复它。为什么它说数组没有定义？下面是我的代码的一个非常简化的版本： /* Initiate

浏览 0提问于2020-07-27得票数 1

1回答

用Promise.all实现木偶类多线程

、、、

编写抓取机器人或在网站上执行某些活动的机器人(使用Puppeteer)时，我经常需要“某种”多线程功能，以便能够同时接近多个页面并在它们上执行某些操作，最好是同时进行。为此，我按照以下模式使用Promise.all()： const runInParallel = async(len) => { // close page and br

浏览 35提问于2020-07-29得票数 3

2回答

木偶人爬行器大规模爬行

、、

我们正在使用Puppeteer编写一个网络爬虫。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

2回答

在需要相同包的多个模块中组织代码会降低Node.js的性能吗？

、

我正在使用Node.js和Puppeteer，我正在使用Puppeteer来抓取多个网站。我正在考虑通过将每个站点实现分离到其自己的文件来组织代码。这样，我就可以在index.js文件中导入所有这些模块。我读过关于Nodejs缓存模块的文章，这种组织代码的方式是标准的，然而，在我的例子中，假设我有100个不同的网站需要抓取，那么我将有100个模块需要(puppeteer/jsdom)在每个

浏览 1提问于2021-04-11得票数 1

1回答

如何在抓取puppeteer和NodeJs时获取div标签的内容

、、

我听说过一个叫做puppeteer的库，它在抓取网页时很有用。所以我决定抓取一个游戏网站的内容，这样我就可以存储它的数据，然后再浏览它。但是在我复制了div标记的XPATH之后，我希望puppeteer抓取它的内容，它返回的是空字符串“请注意我做错了什么”。这是我试图抓取here的url 我想刮掉显示6个不同颜色球的结果的div标签。这样我就可以每隔45秒得到这些颜色的数量。 const puppeteer = require(&q

浏览 137提问于2021-01-08得票数 0

2回答

使用Apify进行Web抓取

、、、、

我正在尝试从中抓取URL 我的Apify角色使用Puppeteer平台。所以我使用

浏览 17提问于2020-02-25得票数 1

1回答

未能在木偶技师中使用xpath刮取到下一页的链接

、、、、

我正在尝试从这个中抓取下一页的链接。我知道如何使用css选择器来抓取。但是，当我试图使用xpath解析同样的内容时，事情就会出错。是我得到的，而不是下一个页面链接。const puppeteer = require("puppeteer");

浏览 1提问于2021-09-16得票数 0

回答已采纳

1回答

一个浏览器中的多个页面与木偶剧中多个浏览器中的多个页面之间的差异

、

我正在使用puppeteer从网站上抓取内容，我需要打开多个页面。我想知道一个浏览器中的多个页面和多个浏览器中的多个页面有什么不同？

浏览 1提问于2017-10-13得票数 0

1回答

使用Apify和Puppeteer抓取URL

、、、、

我正在尝试使用 ()从中抓取URLasync function pageFunction( context ) {

浏览 18提问于2020-02-28得票数 1

回答已采纳

2回答

抓取背景-使用木偶操纵者的图像

、、

有没有人能解释一下我如何使用Puppeteer从网页上抓取背景图片？图像位于image-background类中，但其中没有存储任何内容。jpg URL位于如何抓取网址''？谢谢

浏览 1提问于2020-06-05得票数 0

1回答

如何在多个傀儡窗口中使用用户数据-dir

、、、、

0410/181437.893:ERROR:cache_util_win.cc(20)] Unable to move the cache: Access is denied. (0x5) const browser = await puppeteer.launch({ headless:false

浏览 2提问于2021-04-10得票数 2

回答已采纳

1回答

木偶操纵者的性能分析

、

我正在运行网页抓取的puppeteer。我需要使用puppeteer分析网页性能。我需要时间分割木偶剧中的每个组件，如timetaken连接到url，timetaken用于page.evaluate方法等。我还想知道，有没有同样的节点模块？

浏览 1提问于2019-09-25得票数 0

1回答

错误:使用虚拟链接器进行网络扫描-无法读取未定义的属性“getProperty”

、

我试图在RightMove中为所有返回的搜索项抓取URL。这一页是： const puppeteer = require('puppeteer'); const browser= await puppeteer<

浏览 0提问于2021-05-01得票数 0

回答已采纳

3回答

JavaScript傀儡抓取变量

、、、、

我试图从一个保存HTML数据的变量中抓取HTML数据。你可以看到我的注解，它们标有“<<”。不幸的是，evaluate只能在页面上工作，而不能在div中工作。有人能告诉我如何从包含HTML的变量中抓取信息吗？我也在forEach循环中尝试过这一点，但这会产生原始文档的第一个mealname。htmlOfOneProduct.document.querySelector("div.meal__description-texts.js-meal-descrip

浏览 9提问于2020-03-16得票数 1

回答已采纳

1回答

在DevTools上工作但在page.evaluate()中不工作的代码

、、

我对javascript和Puppeteer也很陌生。我正试图从一个论坛内的一系列网页中抓取一些innerHTML。页面的URL遵循具有前缀和结尾的'/ page -N‘的模式，N是页码。因此，我决定使用for循环和模板文字遍历页面，以便在每个循环中加载一个新的页面URL，直到达到变量C.numberOfPages中包含的最终页面数。由于我抓取的页面的结构，所有这些。children[]连接都是必需的，并且它们在浏览器中工作得很好

浏览 2提问于2020-08-12得票数 0

1回答

如何使用Cheerio获取已动态填充的LI tat之间的数值

、

如何使用Cheerio获取由UL和class标记包装的li标记中的数字。class="ball winNum2"></li>','<li class="ball winNum4"></li>'] 并且在li

浏览 25提问于2019-06-25得票数 0

1回答

点击href链接后，木偶师如何进行页面访问？

、、

假设，在一个网站中，我有一些链接来测试每个链接是工作的good.For，我需要点击每个页面链接，需要测试每个页面是打开的，我需要断言打开的页面内容。使用木偶师怎么可能做到呢？

浏览 19提问于2020-07-16得票数 1

1回答

如何在抓取网站的同时持续监听新项目

、、

我正在使用puppeteer抓取一个正在实时更新的网站，以便在其他地方报告最新的项目。目前，我认为实现这一点的方法是在我的异步抓取上运行一个setInterval调用，并比较最后一项是否发生了变化，每30秒检查一次。我想一定有比那更好的方法来做这件事。下面是我当前的代码： const puppeteer = require('puppeteer'); console.log(

浏览 13提问于2021-01-01得票数 0

1回答

使用木偶连接时访问页面时出现问题

、、

我正在尝试使用puppeteer库从现有的chrome页面中抓取信息以用于学习目的。我已经在调试模式下打开了chrome，收到了我所在的chrome页面的ws url，并且连接成功。({ }); 我所连接的页面在一个youtube视频的url中。当我在打开一个新浏览器时使用这段代码时，这是非常容易的，但现在我已经连接

浏览 21提问于2020-03-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云