前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >网站页面优化:ROBOTS文件和META ROBOTS

网站页面优化:ROBOTS文件和META ROBOTS

作者头像
林雍岷
发布2019-07-03 16:45:32
1.9K0
发布2019-07-03 16:45:32
举报
文章被收录于专栏:林雍岷林雍岷

ROBOTS文件(robots.txt)位于网站根目录的文件,也称为机器人排除协议或标准,用于告知搜索引擎网站上的哪些网页要抓取,哪些页面不要抓取。META ROBOTS是一个元标签,可以单独写入到网页中,也是为搜索引擎提供指导读取网站网页的计算机程序。

不需要任何技术和经验即可充分利用robots.txt强大功能,你可以通过查看网站源码找到robots.txt。首先让我们看看robots.txt文件是什么为何如此重要。

什么是robots.txt

robots.txt是网站管理员创建的文本文件,用于告诉网络机器人(通常是搜索引擎机器人)如何抓取其网站上的网页。robots.txt文件是机器人排除协议(REP)的一部分,该协议是一组WEB标准,用于管理机器人如何抓取网络,访问和索引内容,以及将内容提供给用户。REP还包括诸如META ROBOTS之类的指令,以及关于搜索引擎应如何处理链接(例如“follow”或“nofollow”)的网页,子目录或站点范围的指令。

ROBOTS文件基本格式看起来像这样:

代码语言:javascript
复制
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

下面两个被认为是完整的robots.txt文件,尽管一个robots文件包含多行用户代理和指令(即禁止,允许,爬行延迟等)。

下面这个例子在robots.txt文件中,每组用户代理指令显示为离散集,由换行符分隔:

在多个用户代理指令的robots.txt文件中,每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户代理。如果文件包含多个用户代理的规则,则搜索引擎程序将关注(并遵循指令)最具体的指令组,例子如下:

robots.txt重要性

网站使用robots.txt几个重要原因:

  • 希望在搜索引擎中隐藏或阻止网站中的文件;
  • 使用广告时需要特别说明;
  • 希望网站遵循谷歌优化指南以提升SEO。

需要强调的是,一些网站可能觉得不需要robots.txt,因为他们不需要在公共视野中隐藏网站的敏感数据,允许GOOGLEBOT从内到外全面抓取整个网站,如果网站没有robots.txt,则默认搜索引擎可以访问全网站。

如果你正在摸不着头脑,为什么robots.txt会这么好奇,一定要理解这个文件内容的重要性:

  • 它控制搜索引擎如何抓取和网页交互;
  • 它是搜索引擎工作流程中的基本部分;
  • robots.txt使用不当可能会损害网站搜索排名;
  • 使用robots.txt是谷歌优化指南的一部分。

主要的搜索引擎和大多数信誉良好的小型搜索引擎都会阅读robots.txt的内容,并遵循网站robots.txt的指示来读取网站。优化robots.txt的方式取决于你网站上的内容,使用robots.txt有各种各样的方法。

最常用的robots.txt优化方法

robots.txt最常见的使用方法是屏蔽搜索引擎,不要抓取不希望索引的网站区域,提供xml站点地图访问路径,robots.txt放在网站根目录,以下为例。

第一种:屏蔽不想被搜索引擎编入索引的区域

代码语言:javascript
复制
User-agent: *
Disallow: /private

代码解释:

第一行、用户代理,*意思是允许所有搜索访问;

第二行、告诉搜索引擎不要抓取和收录/private文件夹。

第二种:指定GOOGLEBOT搜索引擎不能够访问和收录/private文件夹

代码语言:javascript
复制
User-agent: Googlebot
Disallow: /private

代码解释:

第一行、用户代理,意思是指定Googlebot搜索引擎;

第二行、告诉Googlebot搜索引擎不要抓取和收录/private文件夹。

第三种:网站屏蔽所有搜索引擎

代码语言:javascript
复制
User-agent: *
Disallow: /*

代码解释:

第一行、用户代理,*意思是所有搜索引擎;

第二行、告诉搜索引擎不要抓取和收录网站所有的文件和文件夹。

上述三种情况注意到,如果在robots.txt中乱写一些东西,对网站伤害很大。Disallow:/*这个指令就是网站屏蔽所有搜索引擎。如果网站使用该指令搜索引擎会从索引中删除网站,所以一定要小心。

经典的robots.txt示例

在实际操作中最经典的robots.txt应包含以下内容:

代码语言:javascript
复制
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml

代码解释:

第一行、用户代理,*意思是所有搜索引擎;

第二行、允许所有搜索引擎访问你的网站没有任何屏蔽;

第三行、指定网站地图位置以便搜索引擎更容易找到它。

测试和验证robots.txt

虽然我们可以通过浏览器访问robots.txt网址查看robots.txt的内容,但测试和验证它的最佳方法是通过GOOGLE SEARCH CONSOLE的robots.txt测试程序。

  1. 登录你的GOOGLE SEARCH CONSOLE帐户;
  2. 点击在抓取选项下找到的robots.txt测试工具;
  3. 单击“测试”按钮。

如果一切正常,“测试”按钮将变为绿色,按钮文字变为“已允许”。如果出现问题,将突出显示导致禁用行。

robots.txt在SEO中最佳实践

robots.txt是一个不安全的文件系统,不是真正的文本请求提供给机器人,没有任何方法迫使他们遵守规则。因此网站非常重要区域,robots.txt的disallow不能够帮你实现这一目标。

  • 不要用robot.txt屏蔽js和css文件和文件夹
  • 告诉搜索引擎如何找到网站地图指令sitemap:http://www.yourdomain.com/sitemap.xml

ROBOTS元标签

ROBOTS元标签基本格式看起来像这样:

代码语言:javascript
复制
<head>
<meta name="robots" content="index,nofollow">
</head>

四种用法:

  • Index = "请收录这个页面"
  • Follow ="请追踪此页面上的链接"
  • Noindex="请不要将此页面编入索引"
  • Nofollow="请不要追踪此页面上的链接"

所以不要太担心robot.txt文件或者ROBOTS元标签。除了使用该文件指定站点地图位置外,将在后面的课程中回到详细介绍问题。

在你离开之前

你不必花费太多时间配置或测试robots.txt,重要的是拥有一个并通过GOOGLE网站管理员工具测试,你是否阻止搜索引擎抓取工具访问你的网站。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 林雍岷 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是robots.txt
  • robots.txt重要性
  • 最常用的robots.txt优化方法
  • 经典的robots.txt示例
  • 测试和验证robots.txt
  • robots.txt在SEO中最佳实践
  • ROBOTS元标签
  • 在你离开之前
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档