是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)?
我应该创建一个PHP脚本,使用cookie跟踪访问者,特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。
有可能阻止网络爬虫吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web爬虫上?
我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web爬虫呢?
顺便说一下,我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。
发布于 2013-07-28 01:17:20
因此,如果您已经正确地设计了您的站点,那么您所需要的客户端的安全性与某些类型的爬虫没有区别。基于您说您依赖cookie来跟踪这一事实,恶意客户端可以很容易地绕过您的“安全性”。听起来你只是在处理客户端行为良好的情况。对于某些站点来说,这是很好的(见鬼,NYTimes会这么做)。这取决于您是否需要额外的安全性(这会增加复杂性),或者如果没有它您就可以了。
爬虫不一定要发送cookie,但是同样的,普通的web浏览器也不发送cookie。这里唯一可行的解决方案是通过IP地址跟踪下载(尽管这将成为无用的w/IP 6)。
https://serverfault.com/questions/526747
复制相似问题