文章/答案/技术大牛

发布

社区首页 >问答首页 >网站爬行自动检测

问网站爬行自动检测
EN

Stack Overflow用户

提问于 2009-04-08 09:07:38

回答 4查看 419关注 0票数 1

是否可以编写代码来检测网站是否正在爬取内容？

web-crawler

回答 4

Stack Overflow用户

发布于 2009-04-08 09:13:55

一只好蜘蛛

读取robots.txt
进行适当的user-agent
will查询的速度比一般用户

的速度要快

但我认为，要清楚地检测出是浏览器还是蜘蛛是不可能的。

票数 3

Stack Overflow用户

发布于 2009-04-08 09:15:29

您可以尝试使用用户代理字符串来识别机器人。

不同的机器人似乎有不同的用户代理字符串：

http://www.useragentstring.com/pages/useragentstring.php

但是，用户代理字符串很容易被欺骗。

票数 1

Stack Overflow用户

发布于 2009-04-08 09:15:59

您可以使用通用bot使用的User-Agent字符串列表。您可以使用某种形式的速率检测，并确定很高的请求率可能是一个爬行器(或某个人在您的整个站点上进行了窃取)。

也可能有普通机器人使用的IP地址列表，但一个可靠的检测系统很可能是不可能的。

你可以在你的页面上创建一个真正的访问者永远不会点击的链接，并将任何关注该链接的人标记为爬行器。不管怎样，你会让一些人点击这个链接，但好奇心是不可避免的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/729167

复制

相似问题

问网站爬行自动检测
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网站爬行自动检测EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网站爬行自动检测
EN