首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

SEO正式操作之robots.txt

百度蜘蛛爬行我们的网站时会优先爬行根目录下的robots.txt文件。robots.txt文件存在的意义是:防止搜索引擎收录一些保密和没有意义的页面,这个文件声明的是该网站中不想被爬虫访问的部分。从而保证网站的安全和更好的优化效果。

robots.txt文件必须存在根目录下,而且百度蜘蛛只能识别小写的robots.txt文件。

下面介绍一年robots.txt文件里面的常用语的意思:

User-agent:用来指定搜索引擎爬虫的名字。

Disallow:用来指定不希望被搜索引擎爬虫访问到的URL。

Allow:用来指定希望被搜索引擎爬虫访问到的URL(优先级要比Disallow高)。

*:通配符,有“全部”的意思。

Sitemap:指定网站地图的位置。

对于一些大型的网站来说,robots.txt文件可以写的详细一点。比如说禁止抓取后台文件、禁止抓取data(就是也就是禁止抓取数据库)。

但是如果我们是一个小企业站、一些小网站的话,其实就也没必要设置太多东西。因为蜘蛛一般只会抓取那些有价值的内容。就拿后台来说,光一个后台登录框也没有什么内容,一般来讲蜘蛛不会抓取的。

所以以下格式是对安全性要求不是特别高的那些小网站可以借鉴的形式:

User-agent:*

Allow:/

Sitemap:https://www.XXXXXX.com/sitemap.xml

修改robots.txt文件的话,那你需要在dede后台的文件管理器中去修改。

另外提醒一下,robots.txt文件本质上是一种协议,而不是强制隔离的技术手段。如果有爬虫想暴力抓取你网站的内容,那你的robots.txt是根本防不住的。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191119A0PMSR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券