前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SEOer必学网站分析神器(第三节课)

SEOer必学网站分析神器(第三节课)

作者头像
黄伟SEO
发布2018-05-17 10:27:46
1.2K0
发布2018-05-17 10:27:46
举报
文章被收录于专栏:SEO

我们努力奋斗是为了拥有很多的资本,来对抗未来未知的困境。

今天继续给大家讲解百度站长工具其他功能作用,在这多谢各位同学的持续关注,等后续评论功能开通后,大家交流起来就方便多,我会继续努力,有任何SEO疑问,可以给我留言。

由于接下来讲解的版块功能比较重要,在SEO实际应用中也是久居榜首,所以,请各位同学耐心看完,我尽量控制文章篇幅长度。

百度站长工具

网页抓取

Robots

抓取频次

抓取诊断

抓取异常

01

Robots:robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

使用说明

1、robots.txt可以告诉百度您网站的哪些页面可以被抓取,哪些页面不可以被抓取。

2、您可以通过Robots工具来创建、校验、更新您的robots.txt文件,或查看您网站robots.txt文件在百度生效的情况。

3、Robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。

对于这个大家应该不陌生了,不过在这里也有几点需要大家注意:

第一点:写完后,一定要在百度站长工具中进行测试,别错误的把一些重要页面给屏蔽了;

第二点:写法上的优化改进,变通一下,可以让我们网站更安全,例如:

禁止搜索引擎抓取我们后台地址

最常见的写法:

User-agent: *

Disallow: /admin/

换一种思维,换一种写法:

User-agent: *

Disallow: /adm*

注:这样就让一些人,不能清楚的知道我们后台的URL是什么了。在这里要注意下,你其他页面的URL,千万别含有 “adm”也就是后台地址,要跟其他URL要有区别,不然你这样操作,会有严重的问题的,切记

02

抓取频次:抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。

该功能很重要,每天必看的一个功能,该功能反应服务器最近的一些情况,如果服务器出了什么问题,那对SEO来说,可是灾难性的打击:

接下来,给大家讲解下,平时都需要注意哪些问题:

在这里主要注意下,如果抓取频次过高或过低,我们该怎么办,在上图中,我已经打了箭头,大家可以直接去百度后台进行查看,在这就不多说。总体来说,当然是越多越好,这边网站的页面才有可能完全被百度爬取一遍。

抓取时间,可以说是直接反应服务器、CDN等是否有问题,所以,这个趋势图应该必须每天都要关注一次,如下图:

抓取时间,一定要稳定在1000毫秒以内,超过这个时间,就有问题,上图中有一个很突出的点,那天是因为服务器被攻击,那天后权重就下降,不过还好,在这几天权重又回升了。

当然,这个抓取时间的数据,并不是实时的,一般,要等到第二天才能看到,其实,这种突发事件,根本不用等看这数据,我们就知道了。

看这个数据,主要是如果有那几天或连续几天,抓取时间都在1000-2000之间,那我们技术是很难发现的,那这个时间,我们就需要跟技术去核实下,最近服务器出现什么问题了,这个才是重点。

03

抓取诊断:抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用200次,抓取结果只展现百度蜘蛛可见的前200KB内容。

该功能,可以说是当网站遇到问题后,必须要来使用的一个工具,例如,网站索引量下降,那这个页面类型为什么下降?查了其他工具也没分析出来,那这个时候可以通过抓取诊断,多抓取几个该页面类型的页面,可以从中发现,是不是抓取时间有问题,是不是页面内容有问题(用户与蜘蛛看到的内容不一致),是不是有些内容蜘蛛是看不到等等。

抓取诊断工具的使用,也有以下技巧:

1、当有新页面或是活动页面,一个很重要的页面时,我们可以用抓取诊断,来对该页面进行抓取,这样可以加快蜘蛛来爬取该页面。(同理,一些急需删除的404页面,或者一些重要的栏目等等);

2、如何判断页面抓取时间长(如果做了CDN,是否是CDN有问题),如下图:

如何判断,就看上图中的“提交时间”和“抓取时间”,把这两个时间进行对比,如果时间很长(例如有十几分钟,甚至半个小时)才能抓取成功,那你网站肯定有问题。

遇到这个问题,可以直接跟技术反馈,技术会查清楚原因。我以前遇到过,都是CDN与蜘蛛之间的问题,这个要解说起来就复杂多了。

3、如果换服务器了,这个“抓取诊断”功能,也是非常好用的。当服务器换成功后,就用这个功能,从新抓取每个二级域名的首页即可,发现IP不对,就点“报错”,多抓取几次,就会改过来的。

4、该功能,也可以查看隐藏内容。如果查看抓取结果,与我们实际页面看到的不一样,那么就要引起注意了。当然了,一般都不会不一样。

5、抓取诊断工具常见错误类型解析,这个内容,大家可以直接去百度抓取诊断功能下面的介绍去了解下。

04

抓取异常:Baiduspider无法正常抓取,就是抓取异常。

抓取异常对网站有哪些影响?

对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

一、网站异常

1、dns异常

  当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

2、连接超时

  抓取请求连接超时,可能原因服务器过载,网络不稳定

3、抓取超时

  抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足

4、连接错误

  无法连接或者连接建立后对方服务器拒绝

二、链接异常

1、访问被拒绝

  爬虫发起抓取,httpcode返回码是403

2、找不到页面

  爬虫发起抓取,httpcode返回码是404

3、服务器错误

  爬虫发起抓取,httpcode返回码是5XX

4、其他错误

  爬虫发起抓取,httpcode返回码是4XX,不包括403和404

总结:网站异常,比较容易解决,直接找技术就可以了;在我们做SEO,最重要的就是链接异常,在这4个链接异常错误中,最常见的就是第2和第3个,第3个,也比较好说,直接找技术;对于第2个,就需要我们自己先找原因,在去找技术进行解决。

遇到第2个原因,首先根据上面的404URL,看看是哪个页面类型的错误比较多,在看看最近有没有什么项目上线或改动之类的,如果找不到什么原因,可以把相关404URL,提供给技术,让技术进行查找下原因。

如果404的页面比较少,可以多观察几天,看看后续还会不会出现。有的时候就不知道哪冒出来的404页面,但如果404页面突然增多,那就得查找原因了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SEO答疑学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
内容分发网络 CDN
内容分发网络(Content Delivery Network,CDN)通过将站点内容发布至遍布全球的海量加速节点,使其用户可就近获取所需内容,避免因网络拥堵、跨运营商、跨地域、跨境等因素带来的网络不稳定、访问延迟高等问题,有效提升下载速度、降低响应时间,提供流畅的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档