问如何使用javascript添加的动态内容爬行webPage
EN

Webmasters Stack Exchange用户

提问于 2012-08-31 05:11:42

回答 2查看 3.5K关注 0票数 5

我想有消息说Google机器人有能力理解我们的javascript代码。这意味着这是可能的，完全抓取一个网页，其中有延迟加载功能启用。我正在使用Apache来抓取网站，但我认为它没有能力在页面向下滚动时获取HTML页面中注入的URL。我看到很多网站都在为性能问题做延迟加载。那么，请有人解释一下，我如何在懒惰的加载下爬行HTML页面中的数据。(向下滚动页面)。

javascript

web-crawlers

回答 2

Webmasters Stack Exchange用户

发布于 2012-08-31 05:21:52

Googlebot理解与JS的“隐藏”链接。但是LazyLoad只是让浏览器在初始页面加载之后呈现内容。HTML仍然存在。所以你的机器人应该没有问题扫描它，因为JS是客户端的。

如果严重的JS‘d链接有问题，请使用parsechecker检查它们，看看过滤器是如何处理它们的，并相应地调整它们。

票数 2

Webmasters Stack Exchange用户

发布于 2012-09-03 07:11:03

您可以在服务器端代码(爬行器)中使用一些javascript解析器，并解析javascript来获取所有Ajax请求，然后也对它们进行抓取。其中一个是google-caja。

试试看。也许它会解决你的目的。

票数 1

页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://webmasters.stackexchange.com/questions/34048

复制

相似问题

问如何使用javascript添加的动态内容爬行webPage
EN

回答 2

Webmasters Stack Exchange用户

Webmasters Stack Exchange用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用javascript添加的动态内容爬行webPageEN

回答 2

Webmasters Stack Exchange用户

Webmasters Stack Exchange用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用javascript添加的动态内容爬行webPage
EN