如何配置robots.txt以允许一切?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (47)

我的robots.txt在Google中,网站管理员工具显示了以下值:

User-agent: *
Allow: /

这是什么意思?我对这件事了解不够,所以找你帮忙。我想让所有的机器人爬我的网站,这是正确的配置吗?

提问于
用户回答回答于

如果希望允许每个机器人爬所有内容,这是在robots.txt中指定它的最佳方法:

User-agent: *
Disallow:

注意,Disallow字段有一个空值,这意味着按照规格:

任何空值,都表示可以检索所有URL。

你的方式Allow: /而不是Disallow:)也很管用,但是Allow不属于原始robots.txt规范,所以并不是所有的机器人都支持它(不过,很多流行的机器人都支持它)。也就是说,不可识别的领域必须被忽略,对于那些不认识的机器人来说Allow,结果无论如何都是一样的:如果没有任何东西被禁止爬行(与Disallow),所有的东西都允许爬。

但是,形式上(根据原始规范)这是一个无效的记录,因为至少有一个记录Disallow需要:

至少需要有一个不允许字段出现在记录中。

用户回答回答于

该文件将允许所有爬虫访问。

User-agent: *
Allow: /

这基本上允许所有用户代理(*)到站点的所有部分(/)。

扫码关注云+社区