前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何通过 User-Agent 识别百度蜘蛛

如何通过 User-Agent 识别百度蜘蛛

原创
作者头像
太后
修改2021-10-12 18:01:35
1.5K0
修改2021-10-12 18:01:35
举报
文章被收录于专栏:短信接收服务短信接收服务

如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。

如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。

我们可以通过 User-Agent 大概判断是不是百度蜘蛛(baidu spider)。

百度 User-Agent 主要有以下几个:

  • 百度 PC 蜘蛛 User-Agent 是:
代码语言:txt
复制
  Mozilla/5.0 (compatible; Baiduspider/2.0; +`http://www.baidu.com/search/spider.html`)
  • 百度移动蜘蛛 User-Agent 是:
代码语言:txt
复制
  Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +`http://www.baidu.com/search/spider.html`)
  • 还有一个是 Baiduspider-render/2.0 User-Agent 是:
代码语言:txt
复制
  Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +`http://www.baidu.com/search/spider.html`)

这个 Baiduspider-render/2.0 主要是为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的 CSS、Javascript 和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新 User-Agent 来访问站点的上述资源。

Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 可以获取 Javascript 内容,实现动态渲染。

还有其他的百度产品的 User-Agent:

  • 百度图片搜索 User-Agent:
代码语言:txt
复制
  Baiduspider-image+(+`http://www.baidu.com/search/spider.htm`)
  • 百度视频搜索 User-Agent:
代码语言:txt
复制
Baiduspider-video
  • 百度新闻搜索 User-Agent:
代码语言:txt
复制
Baiduspider-news
  • 百度搜藏 User-Agent:
代码语言:txt
复制
  Baiduspider-favo
  • 百度联盟 User-Agent:
代码语言:txt
复制
  Mozilla/5.0 (compatible; Baiduspider-cpro; +`http://www.baidu.com/search/spider.html`)
  • 商务搜索 User-Agent:
代码语言:txt
复制
  Baiduspider-ads

以上总结了百度所有产品的 User-Agent,但是仅仅通过 User-Agent 识别百度蜘蛛(baidu spider)是完全不够的,因为 User-Agent 完全可以被伪造

如何伪造 User-Agent 与如何通过 IP 识别百度蜘蛛(baidu spider)我将在以后的文章中详述。

参考资料:

1、爬虫识别 - 百度蜘蛛

2、站长平台 - 常见问题解答

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档