robots.txt文件原理、规则和写法

文章来源：企鹅号

搜索引擎的蜘蛛在访问网站时，会首先去访问网站根目录下的robots.txt文件，会按照这个文件中指定的规则不去抓取网站中的部分内容。robots.txt文件规则就是控制搜索引擎的蜘蛛抓取网站内容的规则。

1、robots.txt文件位置

网站根目录，也就是域名的下一级，名称就是robots.txt，如：

2、robots.txt文件不可不存在

某些SEO人员可能会说，网站内容让蜘蛛随便抓取，无需在服务器端放置robots.txt文件。这种说法是错误的。因为有的服务器设置有问题，如果robots.txt文件不存在，服务器会返回200状态码及一些错误信息，而不是404状态码，这很有可能让搜索引擎的蜘蛛误读robots.txt文件内容。

故，就算允许搜索引擎蜘蛛随意抓取，也应该创建一个空的robots.txt文件。

3、robots.txt文件的基本格式

robots文件由记录组成，记录之间以空行分开。记录格式如下：

空格可以在域值两边可加可不加，可以简单记为：

robots.txt文件最简单样式为：

User-agent: *

Disallow: /

不过此robots.txt文件不建议使用，因为这个是禁止所有搜索引擎抓取任何内容。

允许所有搜索引擎抓取任何内容的robots.txt为：

User-agent: *

Disallow:

4、robots.txt文件的写法

1）User-agent

指定下面的规则适用于哪个蜘蛛，通配符星号*代表所有搜索引擎。

以下规则适用于所有搜索引擎：

User-agent: *

只适用于百度：

User-agent: Baiduspider

只适用于Google蜘蛛：

User-agent: Googlebot

2）Disallow

告诉蜘蛛不要去抓取某些文件或目录。

写法：每禁止一个抓取一个文件或目录，都必须另起一行，同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。

如禁止抓取temp和a目录，禁止抓取w目录下的33.html和11.html。

Disallow: /temp/

Disallow: /a/

Disallow: /w/33.html

Disallow: /w/11.html

切勿写为Disallow: /temp/ /a/

3）Allow

告诉蜘蛛应该抓取某些文件或目录。由于不指定则是允许抓取，故Allow必须和Disallow一起用。

如禁止抓取目录a下的文件，在允许抓取b目录下的文件，而b目录在目录a下。

Disallow: /a/

Allow: /a/b/

4）$

通配符$，匹配URL结果的字符。

如禁止抓取.jpg格式的图片：

Disallow: .jpg$

如允许抓取所有.htm文件：

Allow: .htm$

5）*

通配符*，匹配任意字符。

6）Sitemap

以上就是小小课堂带给大家的robots.txt文件规则的相关内容。感谢您的观看。

喜欢记得，点赞，打赏哦。小小课堂，每天一个IT原创视频和图文教程，别忘了关注哦。

发表于: 2018-03-052018-03-05 23:09:05
原文链接：http://kuaibao.qq.com/s/20180305G1PDNY00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

robots.txt文件原理、规则和写法

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐