专栏首页林雍岷网站页面优化:ROBOTS文件和META ROBOTS

网站页面优化:ROBOTS文件和META ROBOTS

ROBOTS文件(robots.txt)位于网站根目录的文件,也称为机器人排除协议或标准,用于告知搜索引擎网站上的哪些网页要抓取,哪些页面不要抓取。META ROBOTS是一个元标签,可以单独写入到网页中,也是为搜索引擎提供指导读取网站网页的计算机程序。

不需要任何技术和经验即可充分利用robots.txt强大功能,你可以通过查看网站源码找到robots.txt。首先让我们看看robots.txt文件是什么为何如此重要。

什么是robots.txt

robots.txt是网站管理员创建的文本文件,用于告诉网络机器人(通常是搜索引擎机器人)如何抓取其网站上的网页。robots.txt文件是机器人排除协议(REP)的一部分,该协议是一组WEB标准,用于管理机器人如何抓取网络,访问和索引内容,以及将内容提供给用户。REP还包括诸如META ROBOTS之类的指令,以及关于搜索引擎应如何处理链接(例如“follow”或“nofollow”)的网页,子目录或站点范围的指令。

ROBOTS文件基本格式看起来像这样:

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

下面两个被认为是完整的robots.txt文件,尽管一个robots文件包含多行用户代理和指令(即禁止,允许,爬行延迟等)。

下面这个例子在robots.txt文件中,每组用户代理指令显示为离散集,由换行符分隔:

在多个用户代理指令的robots.txt文件中,每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户代理。如果文件包含多个用户代理的规则,则搜索引擎程序将关注(并遵循指令)最具体的指令组,例子如下:

robots.txt重要性

网站使用robots.txt几个重要原因:

  • 希望在搜索引擎中隐藏或阻止网站中的文件;
  • 使用广告时需要特别说明;
  • 希望网站遵循谷歌优化指南以提升SEO。

需要强调的是,一些网站可能觉得不需要robots.txt,因为他们不需要在公共视野中隐藏网站的敏感数据,允许GOOGLEBOT从内到外全面抓取整个网站,如果网站没有robots.txt,则默认搜索引擎可以访问全网站。

如果你正在摸不着头脑,为什么robots.txt会这么好奇,一定要理解这个文件内容的重要性:

  • 它控制搜索引擎如何抓取和网页交互;
  • 它是搜索引擎工作流程中的基本部分;
  • robots.txt使用不当可能会损害网站搜索排名;
  • 使用robots.txt是谷歌优化指南的一部分。

主要的搜索引擎和大多数信誉良好的小型搜索引擎都会阅读robots.txt的内容,并遵循网站robots.txt的指示来读取网站。优化robots.txt的方式取决于你网站上的内容,使用robots.txt有各种各样的方法。

最常用的robots.txt优化方法

robots.txt最常见的使用方法是屏蔽搜索引擎,不要抓取不希望索引的网站区域,提供xml站点地图访问路径,robots.txt放在网站根目录,以下为例。

第一种:屏蔽不想被搜索引擎编入索引的区域

User-agent: *
Disallow: /private

代码解释:

第一行、用户代理,*意思是允许所有搜索访问;

第二行、告诉搜索引擎不要抓取和收录/private文件夹。

第二种:指定GOOGLEBOT搜索引擎不能够访问和收录/private文件夹

User-agent: Googlebot
Disallow: /private

代码解释:

第一行、用户代理,意思是指定Googlebot搜索引擎;

第二行、告诉Googlebot搜索引擎不要抓取和收录/private文件夹。

第三种:网站屏蔽所有搜索引擎

User-agent: *
Disallow: /*

代码解释:

第一行、用户代理,*意思是所有搜索引擎;

第二行、告诉搜索引擎不要抓取和收录网站所有的文件和文件夹。

上述三种情况注意到,如果在robots.txt中乱写一些东西,对网站伤害很大。Disallow:/*这个指令就是网站屏蔽所有搜索引擎。如果网站使用该指令搜索引擎会从索引中删除网站,所以一定要小心。

经典的robots.txt示例

在实际操作中最经典的robots.txt应包含以下内容:

User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml

代码解释:

第一行、用户代理,*意思是所有搜索引擎;

第二行、允许所有搜索引擎访问你的网站没有任何屏蔽;

第三行、指定网站地图位置以便搜索引擎更容易找到它。

测试和验证robots.txt

虽然我们可以通过浏览器访问robots.txt网址查看robots.txt的内容,但测试和验证它的最佳方法是通过GOOGLE SEARCH CONSOLE的robots.txt测试程序。

  1. 登录你的GOOGLE SEARCH CONSOLE帐户;
  2. 点击在抓取选项下找到的robots.txt测试工具;
  3. 单击“测试”按钮。

如果一切正常,“测试”按钮将变为绿色,按钮文字变为“已允许”。如果出现问题,将突出显示导致禁用行。

robots.txt在SEO中最佳实践

robots.txt是一个不安全的文件系统,不是真正的文本请求提供给机器人,没有任何方法迫使他们遵守规则。因此网站非常重要区域,robots.txt的disallow不能够帮你实现这一目标。

  • 不要用robot.txt屏蔽js和css文件和文件夹
  • 告诉搜索引擎如何找到网站地图指令sitemap:http://www.yourdomain.com/sitemap.xml

ROBOTS元标签

ROBOTS元标签基本格式看起来像这样:

<head>
<meta name="robots" content="index,nofollow">
</head>

四种用法:

  • Index = "请收录这个页面"
  • Follow ="请追踪此页面上的链接"
  • Noindex="请不要将此页面编入索引"
  • Nofollow="请不要追踪此页面上的链接"

所以不要太担心robot.txt文件或者ROBOTS元标签。除了使用该文件指定站点地图位置外,将在后面的课程中回到详细介绍问题。

在你离开之前

你不必花费太多时间配置或测试robots.txt,重要的是拥有一个并通过GOOGLE网站管理员工具测试,你是否阻止搜索引擎抓取工具访问你的网站。

本文分享自微信公众号 - 林雍岷(linyongmin81)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 达沃斯建站告诉你排名与流量之间关系?

      【排名与流量】网站排名和网站流量是互补的和互利的。如果你说你的网站在主页上排名,但没有流量,网站排名做什么?如果你的网站有很多流量,网站就是一个垃圾网站,不...

    达沃斯分享
  • 汇总网站主流搜索引擎优化攻略

    一个高质量的网站的制作需要SEO优化,无论是日夜更新文章还是优化,这只是一个优化过程,不能达到真正的优化目的。优化的目标是通过搜索引擎向我们展示高质量的内容,而...

    达沃斯分享
  • elasticsearch之Roaring Bitmaps的结构

    如果你是刚刚接触搜索引擎,你可能会感到奇怪,构建搜索引擎中存储块的一个很重要的原因是搜索引擎能够有效地压缩和快速解码有序的数字集合。 为什么这个很有用?你可能知...

    开发架构二三事
  • 推介几款 windows 下非常好用的工具

    在下工具控一枚,平时会留意收集各种各样给我们生活生产带来便捷的工具,毕竟人生苦短;下面介绍一些 Windows 系统上发现的一些好用的工具,并且将一笔带过主要特...

    SHERlocked93
  • 百度判断垃圾外链与作弊外链的方法及处理原则

    做网站优化的站长们都知道,搜索引擎优化可以为其带来目标客户转化。想做好搜索引擎优化一般通过站内优化与站外优化的有效结合,站内优化主要通过改进网站质量及代码规范来...

    达沃斯分享
  • Serverless实践系列(一):如何通过SCF与自然语言处理为网站赋能

    自然语言的内容有很多,今天本文所介绍的自然语言处理部分是“文本摘要”和“关键词提取”。在做博客的时候,经常会发一些文章,这些文章发出去了,有的很容易被搜索引擎检...

    腾讯云serverless团队
  • 为什么你的网站会从搜索引擎中消失?

    如果你从事SEO行业一段时间了,你是否偶尔会遇到这种情况,网页批量消失,搜索网站标题,完全查询不到结果,甚至输入网址查询都没有结果,那么一定是网站出问题,被搜索...

    蝙蝠侠IT
  • 终于有人把 Elasticsearch 原理讲透了!

    搜索是现代软件必备的一项基础功能,而 Elasticsearch 就是一款功能强大的开源分布式搜索与数据分析引擎。

    Spark学习技巧
  • 【seo标签优化】seo优化师通过标签优化来提升关键词排名

    SEOER的日常工作是优化可预测的不确定性。SEO优化是一项非常繁琐的工作,包括内容优化、标题优化、图像优化、链接优化、代码优化、功能优化、标签优化等。而每一部...

    达沃斯分享
  • NLP研究入门之道:如何通过文献掌握学术动态

    本期推送第四篇:如何通过文献掌握学术动态,感兴趣的同学可以直接在Github上阅读。

    代码医生工作室

扫码关注云+社区

领取腾讯云代金券