首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手把手教你运营:SEO基础-技术-robots

Robots:概念;功能;用法举例

1. Robots概念:

搜索引擎使用爬虫程序自动访问互联网上的网页并获取网页信息。

爬虫在访问一个网站时,首先会检查该网站的根目录下是否有一个叫robots.txt的纯文本文件,这个文件是用于指定爬虫在您网站上抓取范围。

Robots文件就是一个协议:

您可以在您的网站上创建一个robots.txt。

在文件中声明:该网站中不想被搜索引擎收录的部分或指定搜索引擎只收录的特定的部分。

放在服务器/空间根目录下,如图:

2. 功能:

Roboots协议是用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;

可以屏蔽一些网站上比较大的文件。

如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。

3. 用法举例

禁止所有搜索引擎访问网站的任何部分:

User-agent:*

Disallow:/

允许所有的robot访问:

User-agent:*

Allow:/

仅禁止Baiduspider访问您的网站:

User-agent:Baiduspider

Dissallow:/

禁止spider访问特定目录

User-agent:*

Dissallow:/x/

Dissallow:/xx/

Dissallow:/xxx/

使用“*”限制访问url(仅允许访问以“.htm”为后缀的URL。)

User-agent:*

Dissallow:/xxx/*.htm

禁止访问网站中所有的动态页面:

User-agent:*

Dissallow:/*?*

注:一般的开源后台都会自带robots.txt文件

或者自己写一个放在网站根目录即可!

笔记人

姓名:赵州瞧

微信公众号:赵州瞧运营

顺着天赋做事,逆着性格做人

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171222G0YBO600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券