首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用javascript添加的动态内容爬行webPage

如何使用javascript添加的动态内容爬行webPage
EN

Webmasters Stack Exchange用户
提问于 2012-08-31 05:11:42
回答 2查看 3.5K关注 0票数 5

我想有消息说Google机器人有能力理解我们的javascript代码。这意味着这是可能的,完全抓取一个网页,其中有延迟加载功能启用。我正在使用Apache来抓取网站,但我认为它没有能力在页面向下滚动时获取HTML页面中注入的URL。我看到很多网站都在为性能问题做延迟加载。那么,请有人解释一下,我如何在懒惰的加载下爬行HTML页面中的数据。(向下滚动页面)。

EN

回答 2

Webmasters Stack Exchange用户

发布于 2012-08-31 05:21:52

Googlebot理解与JS的“隐藏”链接。但是LazyLoad只是让浏览器在初始页面加载之后呈现内容。HTML仍然存在。所以你的机器人应该没有问题扫描它,因为JS是客户端的。

如果严重的JS‘d链接有问题,请使用parsechecker检查它们,看看过滤器是如何处理它们的,并相应地调整它们。

票数 2
EN

Webmasters Stack Exchange用户

发布于 2012-09-03 07:11:03

您可以在服务器端代码(爬行器)中使用一些javascript解析器,并解析javascript来获取所有Ajax请求,然后也对它们进行抓取。其中一个是google-caja。

试试看。也许它会解决你的目的。

票数 1
EN
页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://webmasters.stackexchange.com/questions/34048

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档