Robots:概念;功能;用法举例
1. Robots概念:
搜索引擎使用爬虫程序自动访问互联网上的网页并获取网页信息。
爬虫在访问一个网站时,首先会检查该网站的根目录下是否有一个叫robots.txt的纯文本文件,这个文件是用于指定爬虫在您网站上抓取范围。
Robots文件就是一个协议:
您可以在您的网站上创建一个robots.txt。
在文件中声明:该网站中不想被搜索引擎收录的部分或指定搜索引擎只收录的特定的部分。
放在服务器/空间根目录下,如图:
2. 功能:
Roboots协议是用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;
可以屏蔽一些网站上比较大的文件。
如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。
3. 用法举例
禁止所有搜索引擎访问网站的任何部分:
User-agent:*
Disallow:/
允许所有的robot访问:
User-agent:*
Allow:/
仅禁止Baiduspider访问您的网站:
User-agent:Baiduspider
Dissallow:/
禁止spider访问特定目录
User-agent:*
Dissallow:/x/
Dissallow:/xx/
Dissallow:/xxx/
使用“*”限制访问url(仅允许访问以“.htm”为后缀的URL。)
User-agent:*
Dissallow:/xxx/*.htm
禁止访问网站中所有的动态页面:
User-agent:*
Dissallow:/*?*
注:一般的开源后台都会自带robots.txt文件
或者自己写一个放在网站根目录即可!
笔记人
姓名:赵州瞧
微信公众号:赵州瞧运营
顺着天赋做事,逆着性格做人
领取 专属20元代金券
Get大咖技术交流圈