专栏首页在码圈新网站 Robots 和 SiteMap 优化

新网站 Robots 和 SiteMap 优化

新网站 Robots 和 SiteMap 优化

什么是Robots

robots.txt是网站管理者写给爬虫的一封信,里面描述了网站管理者不希望爬虫做的事,比如:

不要访问某个文件、文件夹 禁止某些爬虫的访问 限制爬虫访问网站的频率

一个自觉且善意的爬虫,应该在抓取网页之前,先阅读robots.txt,了解并执行网站管理者制定的爬虫规则。

也就是说 对于爬虫来说,爬取你的个人网站,第一件事是读取你的robots.txt文件

格式

User-agent: 爬虫的名称 Disallow: 不允许爬虫访问的地址 Allow: 允许爬虫访问的地址 若User-agent是*,则表示对象是所有爬虫。

Disallow和Allow后面跟的是地址,地址的描述格式符合正则表达式(regex)的规则。因此可以在python中使用正则表达式来筛选出可以访问的地址。

那么我们就可以规定robots中的内容了

User-agent: *    # 注意这里指的是 针对所有的搜索引擎
Disallow: /assets/*  # 这里是针对爬虫 不允许访问的目录

# 以下是 网站地图 告诉爬虫 那些页面可以爬 提高网站的收录率
Sitemap: https://www.arcinbj.com/sitemap.xml
Sitemap: https://www.arcinbj.com/sitemap.txt

推荐Robots一键生成工具

http://tool.chinaz.com/robots/

什么是SiteMap

我们都知道百度地图是用来方便人们出行的,同样的道理,网站地图是用来方便搜索引擎蜘蛛出行的。 网站地图就是一个包含网站大量页面链接的聚合页面,一般的中小型网站地图比较简单,就是全站链接的集合页。但在制作大中型网站的网站地图通常会有链接等级机构,层次分明。

很多人可能会问,为什么要网站地图? 因为在网站不断的内容更新维护中,会产生大量的页面链接,链接结构也会越来越复杂。

搜索引擎面对不同网站的抓取速度是不一样的,一般针对低权重的网站,抓取速度越慢,如果依靠自然抓取的话,抓取到深层次的链接是非常慢的,周期太长,不适合做SEO优化。

因此,网站地图就诞生了,网站地图包含了网站所有重要链接或者需要向搜索引擎展示的链接。网站地图一般存放在根目录下并命名为sitemap,常见的有两种格式:sitemap.xml、sitemap.html。

一般站长们会在robots协议文件中加入网站地图的路径,因为robots协议文件是蜘蛛访问网站第一个访问的文件。这样做也会加快搜索引擎对网站的抓取周期。

sitemap.txt 规范
  1. 一行一个网站链接
  2. 新连接倒序放置
sitemap.xml 规范
  1. xml格式 一对标签一个网站
  2. 新连接倒序放置
  3. xml中priority为网站爬取权重,告诉爬虫优先爬哪个

推荐SiteMap一键生成工具

http://tools.bugscaner.com/sitemapspider

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 关于友情链接或者其他外部链接的建议

    网站增加互换友链或者单相挂载他人友链是一件很正常的事,但是要做到极致,且收益最大化里面的门道还是有点的

    Parker
  • 亿及流量多级缓存 - 客户端缓存

    在HTTP协议中If-Modified-Since和If-None-Match分别对应Last-Modified和ETag

    Parker
  • Lvs+Keepalived 保障HA高可用

    LVS的英文全称是Linux Virtual Server,即Linux虚拟服务器。它是我们国家的章文嵩博士的一个开源项目。在linux内存2.6中,它已经成为...

    Parker
  • 今日头条的 ByteSpider,怎么就成了小网站的“噩梦”?

    2019 上半年,今日头条正式公布开始做搜索引擎。本来单纯的以为头条和微信一样,做的是垂直搜索或者站内搜,没想到做的是抓取全网内容的全新搜索引擎。

    数据森麟
  • 一些杂想

    (目前个人认为,Django 还是应该使用 Django1.11版本,稳定长期支持到2020年,兼容性也好。)

    希希里之海
  • 【Hibernate那点事儿】—— Hibernate知识总结

    前言: 上一篇简单的讲解了下Hibernate的基础知识。这里对Hibernate比较重要的一些知识点,进行总结和归纳。 总结的知识点: 1 关于...

    用户1154259
  • 腾讯云VPC和企业网络互通配置

    此处仅描述了部署在腾讯云的容器和控制台建立连接的过程,但同样适用于用户侧本地网络。

    Accesshub
  • 快速获取一个网站的所有资源,图片,扒站,仿站必备工具

    网络爬行(也称为网络抓取)在当今的许多领域得到广泛应用。它的目标是从任何网站获取新的或更新的数据并存储数据以便于访问。Web爬虫工具越来越为人所知,因为Web爬...

    叉叉敌
  • 朴素贝叶斯法 2016年11月11日

    朴素贝叶斯法大概是最简单的一种挖掘算法了,《统计学习方法》在第四章做了很详细的叙述,无非是对于输入特征x,利用通过学习得到的模型计算后验概率分布,将后验概率最大...

    学到老
  • 关于闪回区溢出导致的数据hang(r11笔记第12天)

    对于Oracle数据库的闪回区的设置,之前和一个同事和讨论过,总体来说有一些不同的意见。 首先这个闪回区是一个逻辑的概念,闪回区的大小不会严格依赖于磁盘空间的情...

    jeanron100

扫码关注云+社区

领取腾讯云代金券