首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >是否有可能减慢白鲸爬行的频率?

是否有可能减慢白鲸爬行的频率?
EN

Webmasters Stack Exchange用户
提问于 2013-07-09 19:57:07
回答 2查看 5.1K关注 0票数 19

百度蜘蛛爬行的频率已经做了很多。这是真的:“白鹭像疯子一样爬行”

我在和我一起工作的网站上经历过这种现象。至少有一个例子,我发现百度爬行的频率和Googlebot差不多,尽管百度提供的.1%流量和谷歌一样多。

我想把这些访问保留在我的站点上,尽管它们很少(也许有一天它们会增长?),但我无法证明允许服务器负载这么重是合理的。

上述问题的公认答案表明,百度网站管理员工具提供了限制爬行率的机会,但我不愿公开(只有中文的)蠕虫罐头。

有没有人有过限制BWT爬行率的经验?还有别的方法来限制这个负荷吗?

EN

回答 2

Webmasters Stack Exchange用户

发布于 2013-07-10 07:50:49

一个伟大的问题,许多网站管理员可能会感兴趣,因为百度蜘蛛是出了名的侵略性和可以从服务器上的资源.

正如百度的网络搜索新闻中所指出的那样,百度蜘蛛不支持爬行延迟通知设置要求你在百度网站管理员工具平台上注册和验证你的网站,就像在其网站上声明的这里一样。这似乎是与百度直接控制爬行频率的唯一选择。

问题是,其他垃圾邮件机器人使用百度的用户代理(列在第2位的这里 )来搜索你的站点,就像他们在4号下面的FAQ's 这里中所指出的那样。因此,要求百度更慢的爬行速度并不能解决所有问题。

因此,如果您确实决定使用百度的网站管理员工具,也可以通过使用机器人与浏览器数据库之类的资源或使用反向DNS查找来将其用户代理与已知与其关联的IP进行比较。

唯一的其他选择是要么阻止所有百度用户代理,从而牺牲百度的潜在流量,要么尝试使用国防部_qos for Apache之类的方法来限制过多的请求,因为Apache声称它可以管理:

  • 对位置/资源(URL)或虚拟主机的最大并发请求数。
  • 带宽的限制,例如每秒请求的最大允许数为URL或每秒下载的最大/最小字节数。
  • 限制每秒请求事件的数量(特殊请求条件)。
  • 它还可以“检测”非常重要的人(VIP),这些人可以在没有或限制较少的情况下访问web服务器。
  • 通用请求行和标头筛选器,以拒绝未经授权的操作。请求主体数据限制和过滤(需要mod_parp)。
  • TCP连接级别上的限制,例如,来自单个IP源地址或动态保持活动控制的允许连接的最大数量。
  • 当服务器耗尽免费TCP连接时,更喜欢已知的IP地址。

我还没有找到关于百度网站管理员工具的报道,这是一个缓慢的加载和翻译问题(也没有英文版)。这可能会有帮助,但当然是基于意见的。

票数 11
EN

Webmasters Stack Exchange用户

发布于 2014-01-31 10:42:45

经过大量的研究和实验,我终于忍无可忍,建立了一个百度网站管理员工具账户。这是相当简单的使用时,与谷歌武装在另一个窗口翻译。您可能需要激活防火墙,以便能够从无法从正常浏览器模式捕获的按钮中复制和粘贴中文文本。

安装完毕后,需要等待几天才能显示爬行数据,然后可以自定义爬行速率。它出现在一个名为“压力”的部分,您应该可以通过这个URL访问该部分:

http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F

请注意,如果您有百度网站管理员工具帐户设置,并且您已经将您的网站URL与您的网站帐户相关联,您将只能使用此URL )。在这里,您将看到一个滑块与您当前的爬行率在中心(在我的例子中,每天12676次请求)。把它滑到左边,以降低爬行率。

我还不知道它是否真的尊重你的要求。它给了你一个警告,上面写着这样的话。“我们建议您使用默认的站点百度爬行率。只有当您的网站有问题时,才可以使用此工具来调整。为了维护站点的正常爬行,百度将根据实际的站点情况考虑您的爬虫率调整,因此不能保证根据您的要求进行调整。”

票数 5
EN
页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://webmasters.stackexchange.com/questions/50558

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档