前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[日常]UserAgent中的AhrefsBot解释

[日常]UserAgent中的AhrefsBot解释

作者头像
唯一Chat
发布2021-10-11 17:21:26
1.5K0
发布2021-10-11 17:21:26
举报
文章被收录于专栏:陶士涵的菜地陶士涵的菜地

在观察网站的访问者ua信息的时候

看到有很多AhrefsBot

Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

官方网站的介绍总结就是一个对于我们国内用户无用的蜘蛛

什么是AhrefsBot?

AhrefsBot 是一个 Web 爬虫,为 Ahrefs 在线营销工具集的 12 万亿链接数据库提供支持。它不断抓取网络以使用新链接填充我们的数据库并检查以前找到的数据的状态,以便为我们的用户提供最全面和最新的数据。

来自网络的 Ahrefs Bot 收集的链接数据被全球数千名数字营销人员用于规划,执行和监控他们的在线营销活动。 这些数据对 SEO 社区具有巨大价值,因为它可以帮助营销专业人员更好地理解世界上最大的搜索引擎的基本算法,以便他们可以相应地优化网站。我们的爬虫每隔 24 小时访问超过 60 亿个网页,并每 15-30 分钟更新一次 Ahrefs 的索引。 根据最近一项关于“好机器人”的第三方研究,AhrefsBot 是仅次于 Googlebot 的第二大活跃爬虫。

AhrefsBot 在您的网站上做什么?

AhrefsBot 正在抓取您的网站,记录出站链接并将其添加到我们的数据库中。它会定期重新抓取您的网站以检查以前找到的链接的当前状态。

我们的抓取工具不会收集或存储有关您网站的任何其他信息。它不会在您的网站上触发广告(如果有),也不会为您的 Google Analytics(分析)流量增加数字。

它是否尊重 robots.txt 文件?

是的。绝对地。

我们严格尊重 robots.txt,禁止和允许规则。

如何控制您网站上的 AhrefsBot?

如上所述,AhrefsBot 严格遵循您网站上的 robots.txt 文件。因此,您可以根据需要在您的网站上完全控制它。

要更改 AhrefsBot 访问您网站的频率,您可以在您的 robots.txt 文件中指定来自我们的机器人的两个连续请求之间的最小可接受延迟:

User-agent: AhrefsBot

Crawl-Delay: [value]

其中 Crawl-Delay 值是以秒为单位的时间。

如果出于某种原因您想阻止 AhrefsBot 访问您的站点,请将以下两行放入您服务器上的 robots.txt 文件中:

User-agent: AhrefsBot

Disallow: /

请注意,AhrefsBot 可能需要一些时间来选择您的 robots.txt 文件中的更改。这将在每次下一次预定爬网之前进行。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-10-04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档