我想有消息说Google机器人有能力理解我们的javascript代码。这意味着这是可能的,完全抓取一个网页,其中有延迟加载功能启用。我正在使用Apache来抓取网站,但我认为它没有能力在页面向下滚动时获取HTML页面中注入的URL。我看到很多网站都在为性能问题做延迟加载。那么,请有人解释一下,我如何在懒惰的加载下爬行HTML页面中的数据。(向下滚动页面)。
发布于 2012-08-30 21:21:52
Googlebot理解与JS的“隐藏”链接。但是LazyLoad只是让浏览器在初始页面加载之后呈现内容。HTML仍然存在。所以你的机器人应该没有问题扫描它,因为JS是客户端的。
如果严重的JS‘d链接有问题,请使用parsechecker
检查它们,看看过滤器是如何处理它们的,并相应地调整它们。
发布于 2012-09-02 23:11:03
您可以在服务器端代码(爬行器)中使用一些javascript解析器,并解析javascript来获取所有Ajax请求,然后也对它们进行抓取。其中一个是google-caja。
试试看。也许它会解决你的目的。
https://webmasters.stackexchange.com/questions/34048
复制