是否可以编写代码来检测网站是否正在爬取内容?
发布于 2009-04-08 09:13:55
一只好蜘蛛
的速度要快
但我认为,要清楚地检测出是浏览器还是蜘蛛是不可能的。
发布于 2009-04-08 09:15:29
您可以尝试使用用户代理字符串来识别机器人。
不同的机器人似乎有不同的用户代理字符串:
http://www.useragentstring.com/pages/useragentstring.php
但是,用户代理字符串很容易被欺骗。
发布于 2009-04-08 09:15:59
您可以使用通用bot使用的User-Agent字符串列表。您可以使用某种形式的速率检测,并确定很高的请求率可能是一个爬行器(或某个人在您的整个站点上进行了窃取)。
也可能有普通机器人使用的IP地址列表,但一个可靠的检测系统很可能是不可能的。
你可以在你的页面上创建一个真正的访问者永远不会点击的链接,并将任何关注该链接的人标记为爬行器。不管怎样,你会让一些人点击这个链接,但好奇心是不可避免的。
https://stackoverflow.com/questions/729167
复制相似问题