使用puppeteer进行web抓取找不到CSS标记

Puppeteer是一个基于Node.js的高级库，用于控制Headless Chrome或Chromium浏览器，可以用于模拟用户在浏览器中执行各种操作，例如网页抓取、自动化测试和网络爬虫等。当使用Puppeteer进行web抓取时，有时可能会遇到找不到CSS标记的问题。

在使用Puppeteer进行web抓取时找不到CSS标记的原因可能有以下几种：

页面加载未完成：在抓取页面之前，需要确保页面已经完全加载。可以使用Puppeteer提供的page.waitForNavigation()或page.waitForSelector()方法等待页面加载完成后再进行查找。
CSS选择器错误：CSS选择器是一种用于选择DOM元素的语法，如果选择器错误，就无法找到目标元素。建议仔细检查CSS选择器是否正确，可以通过Chrome浏览器的开发者工具来测试选择器是否能够匹配到目标元素。
动态加载的内容：有些网页会通过JavaScript动态加载内容，这些内容可能无法在初始页面中找到。可以使用Puppeteer的page.waitForSelector()方法等待动态加载的内容出现后再进行查找。

解决方法：

确保页面加载完成：在使用Puppeteer进行页面抓取之前，可以使用await page.waitForNavigation()等待页面加载完成，或者使用await page.waitForSelector()等待特定的DOM元素出现。
检查CSS选择器：使用正确的CSS选择器来定位目标元素，可以使用Chrome浏览器的开发者工具来测试选择器是否能够正确匹配。
使用等待方法：在抓取页面时，如果页面中有通过JavaScript动态加载的内容，可以使用Puppeteer的等待方法，如await page.waitForSelector()来等待这些内容加载完成后再进行查找。
考虑使用XPath：如果无法使用CSS选择器找到目标元素，可以尝试使用XPath进行定位。Puppeteer提供了page.$x()方法用于执行XPath查询。

请注意，以上解决方法是基于Puppeteer进行web抓取的一般性建议。具体解决方法可能因网页结构、动态加载方式等因素而有所不同。

腾讯云提供的相关产品和服务：

腾讯云提供了一系列与云计算相关的产品和服务，其中与网页抓取相关的产品是腾讯云的无服务器云函数（SCF）。无服务器云函数是一种事件驱动的计算服务，可以帮助开发者在腾讯云上运行代码，而无需关心服务器的管理和维护。您可以使用无服务器云函数来运行基于Puppeteer的网页抓取任务。

无服务器云函数产品介绍链接：https://cloud.tencent.com/product/scf

请注意，这里只是提供了腾讯云的一个相关产品作为示例，其他云计算品牌商也提供类似的产品和服务。

页面内容是否对你有帮助？

有帮助

没帮助

使用puppeteer进行web抓取找不到CSS标记

、、

我开始学习用javascript和puppeteer进行web抓取。我找到了一个我喜欢的视频，展示了木偶师，我试图抓取与视频相同的信息(link)。页面与视频有一点不同，所以我使用了我认为正确的标签。当我尝试查找"h3"标记时，问题出现了。标记存在于DOM中，但是我的代码拒绝确认它的存在，但是在查找"h2"标记时工作得“很好”。utm_campaign=marketingplatform.go

浏览 19提问于2021-02-07得票数 0

回答已采纳

1回答

提取所有CSS与木偶？

、、、、

我正在对网站的复杂性进行一些分析。使用无头Chrome/Puppeteer为网页中的所有节点提取所有CSS (外部样式表、<style>标记和内联CSS)的最佳方法是什么？我理想的寻找编译CSS，格式类似于Chrome开发工具中的“样式”选项卡。

浏览 1提问于2018-12-12得票数 2

1回答

使用puppeteer进行Web抓取

、

我认为这是一个显而易见的问题，但我仍然不知道如何从元素中抓取文本。我需要得到文本“你的信用余额为零”。我试着这样做:有帮助吗？谢谢。

浏览 16提问于2020-05-15得票数 0

回答已采纳

1回答

未能在木偶技师中使用xpath刮取到下一页的链接

、、、、

我正在尝试从这个中抓取下一页的链接。我知道如何使用css选择器来抓取。但是，当我试图使用xpath解析同样的内容时，事情就会出错。是我得到的，而不是下一个页面链接。const puppeteer = require("puppeteer"); let url = "https://stackoverflow.com/questions/tagged/web-scraping

浏览 1提问于2021-09-16得票数 0

回答已采纳

2回答

木偶人找不到选择器

、、

我正在尝试使用Puppeteer进行一些web抓取，但是脚本似乎找不到我正在寻找的选择器。基本上是这样的代码：const year = 18; const

浏览 0提问于2018-05-30得票数 10

回答已采纳

4回答

在Puppeteer中进行Web抓取时如何处理验证码？

、、、

我正在使用Puppeteer进行Web抓取，我刚刚注意到，由于我在计算机上的访问量，我试图抓取的网站有时会要求验证码。验证码表单如下所示：所以，我需要帮助来解决这个问题。我一直在考虑将验证码表单发送到客户端，因为我使用Express和EJS将值发送到我的索引网站，但我不知道Puppeteer是否可以发送类似的东西。有什么想法吗？

浏览 1提问于2019-04-03得票数 15

1回答

如何在puppeteer上截取下载请求并读取被截取的文件

、、

我正在使用puppeteer进行web抓取，我需要设置一个请求拦截来读取正在从浏览器下载的文件，而不是真正下载它，因为它需要大量的资源来下载、读取和删除它。我已经识别了该请求，但找不到读取它的方法 pages[0].on('request', request =>

浏览 23提问于2019-08-16得票数 5

回答已采纳

1回答

在表中使用Puppeteer进行Web抓取

、

我正在试着抓取这一页。 const browser = await puppeteer.launch();

浏览 0提问于2020-03-10得票数 0

2回答

如何通过puppeteer进行web抓取？

、、

但是当我尝试用puppeteer做同样的事情时，我得到了UnhandledPromiseRejectionWarning: Error: Evaluation failed: TypeError: Cannotread property 'innerText' of null at __puppeteer_evaluation_script__:3:83。const puppeteer = require('puppeteer'); co

浏览 18提问于2020-02-07得票数 0

回答已采纳

1回答

我必须使用node来运行一个puppeteer包吗？

在我的应用程序中，我想使用puppeteer进行Web抓取。我把木偶演员的代码放在js文件中，但它不起作用。是否可以在浏览器中运行的java脚本中运行puppeteer，或者必须由节点执行？

浏览 0提问于2019-01-21得票数 0

1回答

如果源HTML没有包含实际的编号，我如何才能webscrape？

我正在尝试构建一个web抓取工具，使用python从韩国统计局( some )收集一些统计数据。

浏览 3提问于2021-02-23得票数 0

2回答

用vue js进行Web抓取

、、

我期待着用Vue js制作一个网络抓取应用程序。这个项目我应该得到什么包?？

浏览 2提问于2020-07-06得票数 1

1回答

如何使用Cheerio获取已动态填充的LI tat之间的数值

、

如何使用Cheerio获取由UL和class标记包装的li标记中的数字。

浏览 25提问于2019-06-25得票数 0

1回答

在Node.js中检测网站是否有电子商务

、、

(我有一个很大的网站列表，所以我可能需要刮它们)任何建议，我可以不使用外部网站(如rescan.io/builtwith/等)将不胜感激！谢谢!

浏览 0提问于2019-03-25得票数 0

1回答

使用Puppeteer在<h2>标签之间抓取<p>标签

、、、

我是木偶操纵者的新手，还在学习如何抓取网页。网页的结构是这样的：我要做的是抓取<h2> Status </h2>和<h2>Naam</h2>之间的所有<p>标记。使用我当前的代码，我可以抓取这个页面上的所有<p>标记。只是现在我尝试抓取<h2> Status </h2>之后直到<h2>Naam</h2>的

浏览 29提问于2020-05-25得票数 0

回答已采纳

2回答

如何在Nodejs中使用document.getElementById()

、、、、

我试图使用nodejs从js文件中的html文件中通过id获取元素。我得到的错误'document未定义‘，因为节点在默认情况下不提供文档对象模型。那么我如何在nodejs中使用document.getElementById()呢？谢谢！

浏览 1提问于2018-09-10得票数 5

1回答

错误code=H14 desc=“没有运行web进程”在尝试部署Puppeteer应用程序Heroku之后

、、、、

我正在尝试部署一个简单的应用程序到Heroku，它使用Puppeteer执行Web抓取。由于在Heroku中使用Puppeteer存在问题，我需要定义一个buildpack来支持Puppeteer，如下所示： code=H14 desc="No web processesrunning" 说我没有运行web，我尝试使用建议的命

浏览 2提问于2020-12-30得票数 1

回答已采纳

1回答

puppeteer事件错误处理程序不转到catch块

、、、

我正在使用puppeteer(nodejs)创建web抓取，在web抓取的某些特定部分，我正在监听一个事件，该事件在浏览器启动带有消息的对话框时触发。Error('login_error') try{ page = // Initialize puppeteer

浏览 43提问于2019-02-27得票数 0

1回答

Puppeteer:从点击输入标签按钮后不刷新的页面抓取html

、、、

我正在尝试抓取一些html后，输入标签按钮被点击。我使用page.evaluate()单击按钮，因为page.click()似乎不适用于输入标记按钮。我尝试了在puppeteer启动选项中使用headless:false进行可视调试，以验证在单击按钮后浏览器确实导航到了该位置。const puppeteer = require('puppeteer'); const url = 'http://www.

浏览 44提问于2019-02-18得票数 0

回答已采纳

1回答