文章/答案/技术大牛

发布

社区首页 >问答首页 >百度站点地图文件爬行失败

问百度站点地图文件爬行失败
EN

Stack Overflow用户

提问于 2016-10-18 03:34:31

回答 1查看 288关注 0票数 0

我已经向中文百度提交了我的网站的站点地图文件。

我的网站地图包括：

1)使用gzip压缩的 16 sitemap文件，每个文件小于10 16，包含更少的50K url。

2)带有指向上述站点地图gzipped文件的链接的站点地图索引。

我看到的是百度非常奇怪的行为--它将我的一些站点地图文件标记为Failed (抓取失败)，而其他文件似乎是经过处理的(正常--正常)。

当我重新提交同一组站点地图时，其他文件随机成为失败的爬行文件，而以前失败的文件可以不出错地进行处理。

除了百度留言“失败的爬虫”(抓取失败)之外，我找不到我的站点地图有什么问题。

我变得疯狂，因为百度标记文件“失败的爬虫”相当随机。

谁能提出什么是错的？

或者哪里可以看到准确的错误信息，从百度为什么“失败的爬虫”？

最后，在5月份的尝试之后，百度也将站点地图索引文件标记为“失败的爬虫”(但是提交后，它总是处于‘等待’状态，然后'notmal‘正常爬行)

注: Google、Yahoo/Bing、Yandex成功地处理了相同的文件！

截图请看这里：https://drive.google.com/open?id=0BzDlz6j9c35WWkdwb3F6LW9zazA

baidu

web-crawler

sitemap

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-08 11:32:41

这个错误在Bing/Baidu/Yendex中是最常见的。这是由于HTTPS请求。为sitemap尝试Force并再次提交它。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40099074

复制

相似问题

问百度站点地图文件爬行失败
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问百度站点地图文件爬行失败EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问百度站点地图文件爬行失败
EN