我已经做了一个抓取器来抓取所有与电子商务网站Cdiscount上的"au-quotidien“相关的类别。机器人应该从最上面的菜单开始,然后访问第二层,然后是第三层,然后是抓取项目。以下是我的代码,作为测试:name = "cdis_bot" # how we have to call the bot,只检索链接。html> (referer: https
我正在尝试使用puppeteer & cron抓取一个网站。它工作得很好,除了我不知道如何停止程序执行,如果检测到重复的url?下面是我的项目的伪代码: // target = grab the <a> tag from site
// saveit to the file 虽然这段代码运行良好,但当我在scheduler/cron上运行这段脚本时,