有的时候,站长并不希望某些页面被抓取,如付费内容、测试阶段的网站等。要想确保页面不被抓取,需要使用robots文件。那么该如何正确设置呢?
作为一名SEOer人员来说,我们清楚通常情况下,搜索引擎蜘蛛访问网站时,首先会查看网站根目录下有没有robots.txt的纯文本文件。
一、什么是robots.txt文件
用于指令搜索引擎禁止抓取网站某些内容或者指定抓取网站某些内容的。
只有需要在禁止抓取某些内容时,robots.txt文件才有意义。robots.txt不存在或者是一个空文件意味着允许抓取网站上的所有内容。
注意:有些因服务器设置的问题,robots.txt文件不存在时会返回状态码“200”,而不是“404”状态码。这可能导致搜索引擎错误解读robots文件。因此为了避免此类情况的发生,即使你允许抓取网站上所有的内容,也要在网站根目录下放一个空的robots.txt文件。
二、robots.txt文件对网站有什么优点
1、疾速增加网站权重和拜访量;
2、制止某些文件被查找引擎索引,能够节约服务器带宽和网站拜访速度;
3、为查找引擎供给一个简洁明了的索引环境
三、、robots.txt文件由记录组成,记录之间以空行分开。
格式::
注意:记录之间应以空行分开。
四、robots.txt基本语法:
User-agent:指定规则适用于哪个蜘蛛(如:如百度是Baiduspider,谷歌是Googlebot或是其他搜索引擎)
Allow:允许抓取什么URL路径
Disallow:不允许抓取什么URL路径
通配符*代表所有搜索引擎
结束符$:表示以前面字符结束的u
注意:允许或禁止的目录或文件必须分开写,每个一行
五、实例分析
(1) 禁止所有搜索引擎抓取任何页面
User-agent: *
Disallow: /
(2)允许所有的搜索引擎访问网站的任何部分
User-agent: *
Disallow:
(3)仅禁止Googlebot访问您的网站
User-agent: Googlebot
Disallow: /
也可换为其他搜索引擎
(4) 仅允许Googlebot访问您的网站
User-agent: Googlebot
Disallow:
也可换为其他搜索引擎
(5)禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
注意事项:1)目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。
(6)允许访问特定目录中的部分url:如:不抓取/ab/目录下的其他目录和文件,但允许抓取其中/cd/目录下的内容
User-agent: *
Disallow: /ab/
Allow: /ab/cd/
注:允许收录优先级要高于禁止收录。
(7) 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
(8)禁止搜索引擎抓取网站上所有图片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
(9)允许抓取以.htm为后缀的URL
User-agent: *
Allow: .htm$
(10)禁止抓取所有htm文件
User-agent: *
Disallow: /*.htm
六、特殊情况
被robots文件禁止抓取的URL还是可能被索引并出现在搜索结果中。只要有导入链接指向这个URL,就会被搜索引擎搜索引擎识别出来有这个URL的存在,虽然不会抓取页面内容,但是索引库中会有这个URL的页面信息存在。通常以下面四种情况呈现出来。
(1)只显示URL,没有标题和描述
(2)显示开放目录或雅虎等重要目录收录的标题和描述
(3)导入链接的锚文字显示为标题和描述
(4)搜索引擎从其他地方获得的信息显示为标题和描述
其实很多情况呢,要具体分析,只有掌握了robots文件基本语法,才能合理正确的设置robots.txt文件。
针对以上特殊情况,要想使URL完全不出现在搜索结果中,则需要使用noindex meta robots标签禁止索引。下一期的话就会大家具体分析、阐述一下noindex meta robots标签。
领取专属 10元无门槛券
私享最新 技术干货