首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >网站爬行自动检测

网站爬行自动检测
EN

Stack Overflow用户
提问于 2009-04-08 09:07:38
回答 4查看 419关注 0票数 1

是否可以编写代码来检测网站是否正在爬取内容?

EN

回答 4

Stack Overflow用户

发布于 2009-04-08 09:13:55

一只好蜘蛛

  • 读取robots.txt
  • 进行适当的user-agent
  • will查询的速度比一般用户

的速度要快

但我认为,要清楚地检测出是浏览器还是蜘蛛是不可能的。

票数 3
EN

Stack Overflow用户

发布于 2009-04-08 09:15:29

您可以尝试使用用户代理字符串来识别机器人。

不同的机器人似乎有不同的用户代理字符串:

http://www.useragentstring.com/pages/useragentstring.php

但是,用户代理字符串很容易被欺骗。

票数 1
EN

Stack Overflow用户

发布于 2009-04-08 09:15:59

您可以使用通用bot使用的User-Agent字符串列表。您可以使用某种形式的速率检测,并确定很高的请求率可能是一个爬行器(或某个人在您的整个站点上进行了窃取)。

也可能有普通机器人使用的IP地址列表,但一个可靠的检测系统很可能是不可能的。

你可以在你的页面上创建一个真正的访问者永远不会点击的链接,并将任何关注该链接的人标记为爬行器。不管怎样,你会让一些人点击这个链接,但好奇心是不可避免的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/729167

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档