专栏首页恩蓝脚本如何禁止网站内容被搜索引擎收录的几种方法讲解

如何禁止网站内容被搜索引擎收录的几种方法讲解

通常做网站的目标就是让搜索引擎收录,扩大推广面,但是如果你的网站涉及个人隐私或者机密性非公开的网页而需要禁止搜索引擎收录抓取的话,该如何操作呢?比如淘宝网就是禁止搜索引擎收录的一个例子,本文将教你几种做法来实现屏蔽或禁止搜索引擎收录抓取网站的内容。

搜索引擎蜘蛛不断爬行互联网,如果我们网站没有做出禁止搜索引擎收录的操作,很容易就会被搜索引擎收录。那么下面介绍一下怎么样禁止搜索引擎收录网站内容。

第一种、robots.txt方法

搜索引擎默认的遵守robots.txt协议(不排除某些耍流氓的引擎),创建robots.txt文本文件放至网站根目录下,编辑代码如下:

User-agent: * Disallow: /

通过以上代码,即可告诉搜索引擎不要抓取采取收录本网站,注意慎用如上代码:这将禁止所有搜索引擎访问网站的任何部分。

如果只禁止百度搜索引擎收录抓取网页

1、编辑robots.txt文件,设计标记为:

User-agent: Baiduspider Disallow: /

以上robots文件将实现禁止所有来自百度的抓取。

这里说一下百度的user-agent,Baiduspider的user-agent是什么?

百度各个产品使用不同的user-agent:

  • 产品名称 对应user-agent
  • 无线搜索 Baiduspider
  • 图片搜索 Baiduspider-image
  • 视频搜索 Baiduspider-video
  • 新闻搜索 Baiduspider-news
  • 百度搜藏 Baiduspider-favo
  • 百度联盟 Baiduspider-cpro
  • 商务搜索 Baiduspider-ads
  • 网页以及其他搜索 Baiduspider

你可以根据各产品不同的user-agent设置不同的抓取规则,以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:

User-agent: Baiduspider Disallow: / User-agent: Baiduspider-image Allow: /image/

请注意:Baiduspider-cpro和Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,这个就需要和百度的人联系才能解决了。

如何只禁止Google搜索引擎收录抓取网页,方法如下:

编辑robots.txt文件,设计标记为:

User-agent: googlebot Disallow: /

第二种、网页代码方法

在网站首页代码<head>与</head>之间,加入<meta name=”robots” content=”noarchive”>代码,此标记禁止搜索引擎抓取网站并显示网页快照。

在网站首页代码<head>与</head>之间,加入<meta name=”Baiduspider” content=”noarchive”>即可禁止百度搜索引擎抓取网站并显示网页快照。

在网站首页代码<head>与</head>之间,加入<meta name=”googlebot” content=”noarchive”>即可禁止谷歌搜索引擎抓取网站并显示网页快照。

另外当我们的需求很怪异的时候,比如下面这几种情况:

1. 网站已经加了robots.txt,还能在百度搜索出来?

因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。如果您的拒绝被收录需求非常急迫,也可以通过投诉平台反馈请求处理。

2. 希望网站内容被百度索引但不被保存快照,我该怎么做?

Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

3. 希望被百度索引,但是不保存网站快照,如下代码解决:

<meta name="Baiduspider" content="noarchive">

4. 如果要禁止所有的搜索引擎保存你网页的快照,那么代码就是下面的:

<meta name="robots" content="noarchive">

下面列出一些常用的代码组合:

  • <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>:可以抓取本页,而且可以顺着本页继续索引别的链接
  • <META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>:不许抓取本页,但是可以顺着本页抓取索引别的链接
  • <META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>:可以抓取本页,但是不许顺着本页抓取索引别的链接
  • <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>:不许抓取本页,也不许顺着本页抓取索引别的链接

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对ZaLou.Cn的支持。如果你想了解更多相关内容请查看下面相关链接

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何网站快速被搜索引擎蜘蛛抓取收录的方法

    据真实调查数据显示,90%的网民会利用搜索引擎服务查找需要的信息,而这之中有近70%的搜索者会直接在搜索结果的自然排名的第一页查找自己所需要的信息。由此可见,目...

    空木白博客
  • WordPress的Robots协议怎么写?附最新Robots.txt文件下载

    最近我发现搜索引擎收录了很多“夏末浅笑博客”的重复页面,当然了这跟我前一段时间,将站点根目录下的Robots.txt文件删除掉有直接的关系,Robots.txt...

    夏末浅笑
  • 网站页面优化:ROBOTS文件和META ROBOTS

    ROBOTS文件(robots.txt)位于网站根目录的文件,也称为机器人排除协议或标准,用于告知搜索引擎网站上的哪些网页要抓取,哪些页面不要抓取。META R...

    林雍岷
  • WordPress 站点记得要防范恶意的搜索攻击

    什么是恶意搜索攻击?这种恶意搜索攻击,其实非常简单,就是通过既定的网址结构不断对网站发起不良关键词搜索访问,比如 WordPress 的搜索网址结构为 域名/?...

    明月云服务
  • 「技术」SEO中的技术挑战指南

    黄伟SEO
  • 什么是Robots协议,标准写法是什么

    沈唁
  • Robots协议

    用户1112962
  • SEO新手必知50个SEO术语词解释

    黄伟SEO
  • robots协议

    robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中...

    llnetk.cn
  • 新网站如何做好SEO优化 尽快被收录

    对于新网站,百度等搜索引擎会有一定的扶持,所以在网站上线之前一定要做好规划,为了网站往什么领域发展、所涉猎的内容等都要提前想好。

    德顺
  • 「网站优化」SEO优化网站收录长时间异常,我们该不该放弃网站

    在你网站优化中我们会碰到很多问题,比如网站收录异常、网站索引异常、搜索引擎蜘蛛抓取异常等等问题。

    大脸猫
  • 网络优化中怎么减轻蜘蛛的抓取?

    一般来说,让搜索引擎捕获和索引更多的内容往往是seo们头疼的问题。没有包容和索引,就谈不上排名。特别是对于一个具有一定规模的网站来说,要使网站完全被收录是一项相...

    优享83407551
  • 网络优化中怎么减轻蜘蛛的抓取?

    一般来说,让搜索引擎捕获和索引更多的内容往往是seo们头疼的问题。没有包容和索引,就谈不上排名。特别是对于一个具有一定规模的网站来说,要使网站完全被收录是一项相...

    八点半的Bruce、D
  • 爬虫协议 Tobots

    Robots 协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots 协...

    丹枫无迹
  • SEO人员,4个不经常提及的优化问题

    当你试图建立一个社群的时候,每个成员每天都会有大量的SEO问题,其中有一部分是很少有人问到的问题,而却非常显而易见,因此,我们在做SEO优化的过程中,有必要去思...

    蝙蝠侠IT
  • SEO

    pitaojin
  • SEO优化实战

    本文作者:IMWeb 结一 原文出处:IMWeb社区 未经同意,禁止转载 seo本身涉及范围非常广,所包含的知识也是非常值得深入研究的一个方向,本文仅...

    IMWeb前端团队
  • SEO优化实战

    seo本身涉及范围非常广,所包含的知识也是非常值得深入研究的一个方向,本文仅从重构侧出发聊聊最近做的一些seo实战。

    IMWeb前端团队
  • SEO分享:彻底禁止搜索引擎收录非首选域名的方法

    众所周知,绝大多数网站都会有一个首选域名,从用户体验考虑,通常站长们还会另外解析一个域名,并设置 301 重定向。例如,用户未输入 www 的时候,仍然可以访问...

    张戈

扫码关注云+社区

领取腾讯云代金券