首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >GoogleBot每天最多爬行3,000次

GoogleBot每天最多爬行3,000次
EN

Webmasters Stack Exchange用户
提问于 2016-10-24 12:06:54
回答 1查看 654关注 0票数 4

对于一个网站,GoogleBot每天抓取一个特定的网址超过一千次(主要是1,500到3,000次,有时甚至更多)。

Googlebot IP是真正的Google IP(例如: 66.249.76.21)。

这个奇怪的(?)行为(至少)持续了两年。我们最近已经从HTTP转向HTTPS,但它仍然是一样的.当我第一次遇到这种行为时,网页包含了一个表单: GoogleBot用于在很短的时间内发送数千个GET和POST请求,然后在表单被取消时突然停止这些请求。但是后来,它用表单从另一个页面再试一次。

当我禁止这个网址到机器人,经过一小段时间后,另一个网址由GoogleBot“选择”并一次又一次地爬行(通常是在白天的同一段时间内)。最后一个“高度爬行”不包含任何形式。

几天前,我做了另一个测试:高度爬行的URL将302发送到主页。

结果: GoogleBot遵循302:但不跟踪来自主页的任何文件或链接:它每天发送相同的GET请求超过1000次。

结果是爬行预算的主要部分被浪费在这个单一的url上。其他机器人没有这种行为。

你见过这么奇特的观察吗?会不会是一种“安全”测试?

知道该怎么做吗?

EN

回答 1

Webmasters Stack Exchange用户

发布于 2016-10-25 15:43:23

如果您已经为您的网站提供了站点地图,您可以尝试使用特定的changefreq键添加该页面。例如:

代码语言:javascript
运行
复制
<?xml version="1.0" encoding="UTF-8"?>
<urlset
      xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
      xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
            http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
<url>
  <loc>http://example.com/mypage</loc>
  <changefreq>weekly</changefreq>
  <priority>1.00</priority>
</url>
</urlset>

如果您的页面是http://example.com/mypage的话。您应该使用谷歌网站管理员工具将此站点地图提交给谷歌,在那里您也可以使用更改Googlebot爬行率

票数 1
EN
页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://webmasters.stackexchange.com/questions/100478

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档