百度蜘蛛爬行的频率已经做了很多。这是真的:“白鹭像疯子一样爬行”
我在和我一起工作的网站上经历过这种现象。至少有一个例子,我发现百度爬行的频率和Googlebot差不多,尽管百度提供的.1%流量和谷歌一样多。
我想把这些访问保留在我的站点上,尽管它们很少(也许有一天它们会增长?),但我无法证明允许服务器负载这么重是合理的。
上述问题的公认答案表明,百度网站管理员工具提供了限制爬行率的机会,但我不愿公开(只有中文的)蠕虫罐头。
有没有人有过限制BWT爬行率的经验?还有别的方法来限制这个负荷吗?
发布于 2013-07-10 07:50:49
一个伟大的问题,许多网站管理员可能会感兴趣,因为百度蜘蛛是出了名的侵略性和可以从服务器上的资源.
正如百度的网络搜索新闻中所指出的那样,百度蜘蛛不支持爬行延迟通知设置要求你在百度网站管理员工具平台上注册和验证你的网站,就像在其网站上声明的这里一样。这似乎是与百度直接控制爬行频率的唯一选择。
问题是,其他垃圾邮件机器人使用百度的用户代理(列在第2位的这里 )来搜索你的站点,就像他们在4号下面的FAQ's 这里中所指出的那样。因此,要求百度更慢的爬行速度并不能解决所有问题。
因此,如果您确实决定使用百度的网站管理员工具,也可以通过使用机器人与浏览器数据库之类的资源或使用反向DNS查找来将其用户代理与已知与其关联的IP进行比较。
唯一的其他选择是要么阻止所有百度用户代理,从而牺牲百度的潜在流量,要么尝试使用国防部_qos for Apache之类的方法来限制过多的请求,因为Apache声称它可以管理:
我还没有找到关于百度网站管理员工具的报道,这是一个缓慢的加载和翻译问题(也没有英文版)。这可能会有帮助,但当然是基于意见的。
发布于 2014-01-31 10:42:45
经过大量的研究和实验,我终于忍无可忍,建立了一个百度网站管理员工具账户。这是相当简单的使用时,与谷歌武装在另一个窗口翻译。您可能需要激活防火墙,以便能够从无法从正常浏览器模式捕获的按钮中复制和粘贴中文文本。
安装完毕后,需要等待几天才能显示爬行数据,然后可以自定义爬行速率。它出现在一个名为“压力”的部分,您应该可以通过这个URL访问该部分:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
请注意,如果您有百度网站管理员工具帐户设置,并且您已经将您的网站URL与您的网站帐户相关联,您将只能使用此URL )。在这里,您将看到一个滑块与您当前的爬行率在中心(在我的例子中,每天12676次请求)。把它滑到左边,以降低爬行率。
我还不知道它是否真的尊重你的要求。它给了你一个警告,上面写着这样的话。“我们建议您使用默认的站点百度爬行率。只有当您的网站有问题时,才可以使用此工具来调整。为了维护站点的正常爬行,百度将根据实际的站点情况考虑您的爬虫率调整,因此不能保证根据您的要求进行调整。”
https://webmasters.stackexchange.com/questions/50558
复制相似问题