文章/答案/技术大牛

发布

社区首页 >问答首页 >SemrushBot无法停止

问SemrushBot无法停止
EN

Stack Overflow用户

提问于 2022-11-07 13:55:33

回答 1查看 46关注 0票数 -1

在过去的几天里，我在监控我的网站日志，并看到一个机器人正在扫描我很多。扫描的间隔非常频繁，每5-10秒就有一次.我试图通过将下一段代码写入robots.txt来阻止机器人，但在1或2个小时后，机器人仍在继续扫描。

我能怎么阻止机器人？这是否表明有人试图做一些对我的网站有害的事情？

User-agent: *
Allow: /

User-agent: SemrushBot
Disallow: /

日志实例

185.191.171.11 - - [07/Nov/2022:11:38:59 +0200] "GET /example_store.php?id_class=123&id_product=1234&watch=20670906 HTTP/1.1" 500 5225 "-" "Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"

robots.txt

web-scraping

bots

web-crawler

回答 1

Stack Overflow用户

发布于 2022-11-09 14:58:05

机器人不会每次打电话都会重取robots.txt。他们将文件缓存一段时间，通常是24小时。他们的文件没有说明它们缓存了多长时间，但我希望您需要等待几个多小时才能看到机器人行为的变化。

这也有可能，这是一个流氓机器人，是模仿一个已知的爬虫。如果是这样的话，根本不太可能服从robots.txt。

如果希望获得更即时的结果，可以通过IP地址或防火墙、CDN、负载均衡器或服务器上的用户代理阻止bot。例如，如果您的站点正在使用Apache服务器，则可以向.htaccess中添加一行以阻止bot。请参阅如何阻止特定的网站浏览器代理？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74347719

复制

相似问题

问SemrushBot无法停止
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SemrushBot无法停止EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SemrushBot无法停止
EN