造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些

有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,影响到网站从百度获取的流量。

下面向站长介绍一些常见的抓取异常原因:

1,服务器连接异常

服务器连接异常会有两种情况:一种是站点不稳定,Baiduspider尝试连接您网站的服务器时出现暂时无法连接的情况;一种是Baiduspider一直无法连接上您网站的服务器。

造成服务器连接异常的原因通常是您的网站服务器过大,超负荷运转。也有可能是您的网站运行不正常,请检查网站的web服务器(如apache、iis)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问。您的网站和主机还可能阻止了Baiduspider的访问,您需要检查网站和主机的防火墙。

2,网络运营商异常:网络运营商分电信和联通两种,Baiduspider通过电信或网通无法访问您的网站。如果出现这种情况,您需要与网络服务运营商进行联系,或者购买拥有双线服务的空间或者购买cdn服务。

3,DNS异常:当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

4,IP封禁:IP封禁为:限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,在这里特指封禁了BaiduspiderIP。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,请检查相关设置中是否误添加了BaiduspiderIP。也有可能是您网站所在的空间服务商把百度IP进行了封禁,这时您需要联系服务商更改设置。

5,UA封禁:UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其它页面的情况,即为UA封禁。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,useragent相关的设置中是否有Baiduspider UA,并及时修改。

6,死链:页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:

协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。

内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。

对于死链,我们建议站点使用协议死链,并通过百度站长平台--死链工具向百度提交,以便百度更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。

7,异常跳转:将网络请求重新指向其它位置即为跳转。异常跳转指的是以下几种情况:

1)当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉

2)跳转到出错或者无效页面

注意:对于长时间跳转到其它域名的情况,如网站更换域名,百度建议使用301跳转协议进行设置。

8,其它异常:

1)针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。

2)针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为。

3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。

4)压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样Baiduspider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏zhisheng

如何做好 Elasticsearch 性能指标监控

声明:本文是较早的一篇关于Elasticsearch性能指标监控的博文,内容总结全面,作者 Emily Chang,原文地址:https://www.datad...

10820
来自专栏全能大脸猫

网站优化之SEO优化三大禁忌

看到很多不懂的网站优化的网站喜欢关键词堆积,认为关键词越多越好,恨不得写上百八十个关键词,把相关的搜索流量都揽过来。

5820
来自专栏GA小站

1.1.2 、为什么使用Google Analytics

目前,市面上有很多不同类型的网站分析工具,包括免费的GA、百度统计和腾讯分析等,收费的GA360、Adobe Analytics、Webtrekk和Webtre...

8910
来自专栏IT大咖说

如何提升代码搜索效果?GitHub团队打造代码搜索领域的GLUE数据集

搜索代码进行重用、调用,或者借此查看别人处理问题的方式,是软件开发者日常工作中最常见的任务之一。然而,代码搜索引擎的效果通常不太好,和常规的 web 搜索引擎不...

9640
来自专栏别先生

Lucene的全文检索学习

Lucene的官方网站(Apache的顶级项目):http://lucene.apache.org/

10410
来自专栏SEO-网站优化

搜索引擎八大覆盖平台价值分析

搜索引擎八大渠道价值分析,用一句很简单的话概括“网络上一切的有效的搜索引擎覆盖渠道整合起来做全渠道搜索引擎覆盖”那就是搜索引擎覆盖,这也就是为什么搜索引擎能够起...

11330
来自专栏有三AI

【NLP-ChatBot】我们熟悉的聊天机器人都有哪几类?

本篇是专栏中介绍聊天机器人的第一篇,会大概介绍聊天机器人的历史、特点、分类以及技术框架,让大家对聊天机器人有一个大致的了解。

11940
来自专栏江湖安得便相忘

小笔记:python搜索引擎下拉框截图

作为一个程序员,被女友提需求也也是常有的事情,最近就来了一个需求,需要截取指定搜索引擎的关键词下拉框截图,就是这种的,只要度娘搜索引擎的。

11800
来自专栏网络通讯杂谈

如何利用动态代理IP来做SEO(网络营销)

对动态代理IP大家都不陌生,今天我们来聊下如何利用动态代理ip来做SEO优化。其实除了SEO很多网络营销也都需要用到代理IP,因为很多网络营销的用户都知道,投票...

13160
来自专栏磐创AI技术团队的专栏

数据科学家应知道的数据科学项目的四个关键方面

实用数据科学是一个多维领域。机器学习算法本质上是整个端对端数据科学驱动项目的一部分。我经常遇到一些年轻的数据科学爱好者,他们在刚开始的时候没有一个完整的计划。

10730

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励