谷歌站长工具中的My robots.txt
显示以下值:
User-agent: *
Allow: /
什么意思?我对这方面的知识还不够,所以寻求你的帮助。我想要允许所有的机器人爬行我的网站,这是正确的配置吗?
发布于 2010-11-25 20:23:43
该文件将允许所有爬行器访问
User-agent: *
Allow: /
这基本上允许所有用户代理( *)访问站点的所有部分( /)。
发布于 2017-12-25 14:58:09
我知道这是一个相当古老的问题,并且有一些很好的答案。但是,为了完整起见,这里是我的两点意见。
根据官方documentation,有四种方式,你可以允许机器人完全访问你的网站。
干净:
指定带有@unor提到的不允许段的全局匹配器。所以你的/robots.txt
看起来像这样。
User-agent: *
Disallow:
黑客:
创建一个不包含任何内容的/robots.txt
文件。这将默认为允许所有类型的Bots
的全部。
我才不管呢:
请勿完全创建/robots.txt
。这应该会产生与上面两个完全相同的结果。
丑陋的:
在robots documentation for meta tags中,您可以在站点上的所有页面上使用以下元标记,让Bots
知道这些页面不应该被索引。
<META NAME="ROBOTS" CONTENT="NOINDEX">
为了将其应用于整个站点,您必须为所有页面添加此meta标记。这个标签应该严格地放在页面的HEAD
标签下。关于这个元标签here的更多信息。
发布于 2010-11-25 20:24:58
这意味着您允许每个(*
)用户代理/爬虫程序访问您站点的根目录(/
)。你会好起来的。
https://stackoverflow.com/questions/4276957
复制相似问题