对于一个网站,GoogleBot每天抓取一个特定的网址超过一千次(主要是1,500到3,000次,有时甚至更多)。
Googlebot IP是真正的Google IP(例如: 66.249.76.21)。
这个奇怪的(?)行为(至少)持续了两年。我们最近已经从HTTP转向HTTPS,但它仍然是一样的.当我第一次遇到这种行为时,网页包含了一个表单: GoogleBot用于在很短的时间内发送数千个GET和POST请求,然后在表单被取消时突然停止这些请求。但是后来,它用表单从另一个页面再试一次。
当我禁止这个网址到机器人,经过一小段时间后,另一个网址由GoogleBot“选择”并一次又一次地爬行(通常是在白天的同一段时间内)。最后一个“高度爬行”不包含任何形式。
几天前,我做了另一个测试:高度爬行的URL将302发送到主页。
结果: GoogleBot遵循302:但不跟踪来自主页的任何文件或链接:它每天发送相同的GET请求超过1000次。
结果是爬行预算的主要部分被浪费在这个单一的url上。其他机器人没有这种行为。
你见过这么奇特的观察吗?会不会是一种“安全”测试?
知道该怎么做吗?
发布于 2016-10-25 15:43:23
如果您已经为您的网站提供了站点地图,您可以尝试使用特定的changefreq键添加该页面。例如:
<?xml version="1.0" encoding="UTF-8"?>
<urlset
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
<url>
<loc>http://example.com/mypage</loc>
<changefreq>weekly</changefreq>
<priority>1.00</priority>
</url>
</urlset>如果您的页面是http://example.com/mypage的话。您应该使用谷歌网站管理员工具将此站点地图提交给谷歌,在那里您也可以使用更改Googlebot爬行率。
https://webmasters.stackexchange.com/questions/100478
复制相似问题