我有一个页面,统计有多少次被访问的用户(注册,访客,每种类型的用户...)。
因此,每次查看页面时,我都会更新数据库中的一个字段;是的,如果页面刷新得很快,也是如此,但我并不介意这一点。
当然,当一些机器人/爬虫扫描我的网站时,他们会增加这个值,而我会摆脱这个问题。那么,是否存在要忽略的IP地址列表?或者一些可以帮助我做到这一点的机制?
发布于 2011-08-01 23:35:08
另一种方法是使用ajax。大多数爬虫不能解析javascript。
发布于 2011-08-01 23:29:36
IP地址可能会改变,所以这不是检测访问者是否是机器人的最佳方式。相反,我建议查看HTTP请求参数中的用户代理字符串。
下面是用户代理字符串的列表:http://www.user-agents.org/。在"robots,crawler,spider“的类型R下特别查找。
发布于 2011-08-01 23:31:11
大多数人没有固定的IP地址。你是否设置了一个robots.txt来拒绝对爬虫/机器人的访问?尽管用户代理很容易被欺骗/更改,但您可以定期查询您的日志文件,尝试找出那些不遵守robots.txt的日志文件。
https://stackoverflow.com/questions/6900710
复制相似问题