我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页,如约1,500 - 5,000,但是,当我们执行的网站超过5,000,如果它在中间由于一些错误或崩溃而中断,那么它需要重新开始。如果出现任何错误,如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web爬行通过一个队列系统?
发布于 2021-02-26 23:43:07
发布于 2020-12-05 00:20:02
我自己用Puppeteer.js构建了爬虫来抓取谷歌和必应,我为此挣扎了很长一段时间。我强烈建议使用forever-monitor在每次浏览器崩溃或页面调用挂起时重新启动爬行器。其次,hilly建议在页面超过60秒没有响应时添加page.relaod
(使用promise)。
https://stackoverflow.com/questions/65146993
复制相似问题