在过去的几天里,我在监控我的网站日志,并看到一个机器人正在扫描我很多。扫描的间隔非常频繁,每5-10秒就有一次.我试图通过将下一段代码写入robots.txt来阻止机器人,但在1或2个小时后,机器人仍在继续扫描。
我能怎么阻止机器人?这是否表明有人试图做一些对我的网站有害的事情?
User-agent: *
Allow: /
User-agent: SemrushBot
Disallow: /
日志实例
185.191.171.11 - - [07/Nov/2022:11:38:59 +0200] "GET /example_store.php?id_class=123&id_product=1234&watch=20670906 HTTP/1.1" 500 5225 "-" "Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"
发布于 2022-11-09 14:58:05
机器人不会每次打电话都会重取robots.txt
。他们将文件缓存一段时间,通常是24小时。他们的文件没有说明它们缓存了多长时间,但我希望您需要等待几个多小时才能看到机器人行为的变化。
这也有可能,这是一个流氓机器人,是模仿一个已知的爬虫。如果是这样的话,根本不太可能服从robots.txt
。
如果希望获得更即时的结果,可以通过IP地址或防火墙、CDN、负载均衡器或服务器上的用户代理阻止bot。例如,如果您的站点正在使用Apache服务器,则可以向.htaccess
中添加一行以阻止bot。请参阅如何阻止特定的网站浏览器代理?
https://stackoverflow.com/questions/74347719
复制相似问题