首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何将robots.txt配置为允许所有内容?

如何将robots.txt配置为允许所有内容?
EN

Stack Overflow用户
提问于 2010-11-25 20:16:18
回答 4查看 134.7K关注 0票数 137

谷歌站长工具中的My robots.txt显示以下值:

代码语言:javascript
复制
User-agent: *
Allow: /

什么意思?我对这方面的知识还不够,所以寻求你的帮助。我想要允许所有的机器人爬行我的网站,这是正确的配置吗?

EN

回答 4

Stack Overflow用户

发布于 2010-11-25 20:23:43

该文件将允许所有爬行器访问

代码语言:javascript
复制
User-agent: *
Allow: /

这基本上允许所有用户代理( *)访问站点的所有部分( /)。

票数 172
EN

Stack Overflow用户

发布于 2017-12-25 14:58:09

我知道这是一个相当古老的问题,并且有一些很好的答案。但是,为了完整起见,这里是我的两点意见。

根据官方documentation,有四种方式,你可以允许机器人完全访问你的网站。

干净:

指定带有@unor提到的不允许段的全局匹配器。所以你的/robots.txt看起来像这样。

代码语言:javascript
复制
User-agent: *
Disallow:

黑客:

创建一个不包含任何内容的/robots.txt文件。这将默认为允许所有类型的Bots的全部。

我才不管呢:

请勿完全创建/robots.txt。这应该会产生与上面两个完全相同的结果。

丑陋的:

robots documentation for meta tags中,您可以在站点上的所有页面上使用以下元标记,让Bots知道这些页面不应该被索引。

代码语言:javascript
复制
<META NAME="ROBOTS" CONTENT="NOINDEX">

为了将其应用于整个站点,您必须为所有页面添加此meta标记。这个标签应该严格地放在页面的HEAD标签下。关于这个元标签here的更多信息。

票数 18
EN

Stack Overflow用户

发布于 2010-11-25 20:24:58

这意味着您允许每个(*)用户代理/爬虫程序访问您站点的根目录(/)。你会好起来的。

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4276957

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档