关于谷歌的AJAX爬行规范,如果服务器为#! URL返回一件东西(即JavaScript-繁重的文件),而当#!被?_escaped_fragment_=替换时,服务器返回给Googlebot的其他东西(即页面的"html快照“),感觉就像是在掩饰我。毕竟,Googlebot如何确保服务器返回#!和?_escaped_fragment_= URL的诚意对等物。然而,这正是AJAX爬行规范实际上告诉网站管理员要做的事情。我是不是遗漏了什么?Googlebot如何确保服务器在两种情况下都返回相同的内容?
发布于 2012-09-04 17:23:29
爬虫不知道。但是它永远也不知道,即使是那些返回普通ol‘html的站点--编写基于爬虫或已知IP头使用的http头的代码是非常容易的。
参见以下相关问题:How does Google Know you are Cloaking?
大部分看起来像是猜测,但似乎有各种各样的检查,在欺骗正常的浏览器标题和实际的真人查看页面之间。
继续这样的猜测,谷歌的程序员们当然不会有能力编写一种能够真正检索用户所看到的东西的爬虫--毕竟,他们有自己的浏览器。这将是令人望而却步的CPU
https://stackoverflow.com/questions/8599688
复制相似问题