我使用亚马逊云托管我的网站。在过去的三个月里,我收到了来自亚马逊团队的邮件,说网络流量很高。在收到邮件后,我们正在使我们的实例更安全,代码更清晰。当我检查这个的时候,我可以看到一个像here这样的帖子,上面说谷歌爬虫可能导致了攻击。当我检查访问日志时,我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。请看图片。
。谁能让我确定这个附件是由于谷歌爬虫或不?
发布于 2015-01-01 23:54:50
谷歌的爬虫不会“攻击”,如果它获取robots.txt,它会尊重它。它可以产生足够的流量来超载一个写得很差的应用程序,但它永远不会产生足够的流量让AWS标记它并说“这是不合法的”。如果你正在经历链接帖子中讨论的内容,你不会看到它询问robots.txt,因为讨论的内容没有爬虫。
将apache配置为在日志文件中包含"User-Agent“是让您更接近了解发生了什么的一步。用户代理字符串是假定与每个http请求一起发送的字符串,以标识浏览器或其它web客户端。它可以伪造,所以它不是完全可信的东西,但它提供了有用的高级信息。
熟悉nslookup、dig和whois等DNS概念,这些概念可用于识别控制每个请求中的IP地址的公司。
在这里,最麻烦的事情是,您似乎不知道是什么导致了来自127.0.0.1的请求,这意味着您自己的服务器上的其他服务器发起了这些请求。
如果您在apache前面运行反向代理或缓存,如haproxy或nginx或varnish或squid,则会发生这种情况,并且您需要查看的位置是代理的日志,而不是apache。
如果你从亚马逊的电子邮件中添加一些内容到你的问题中,“流量很高”,这可能会很有用。亚马逊收取流量费用,因此他们通常不会在意流量是否“高”,但如果可疑,他们会介意。
流量是入站还是出站?对于实例的网络使用情况,您在Cloudwatch监控中看到了什么?
您的服务器的安全性可能由于不正确的配置或不安全的编码实践而受到破坏……在这种情况下,有问题的流量可能根本不是网站流量...而且应用程序中所有内容的安全性都处于危险之中。
我们正在使我们的实例更安全。
嗯,取决于你所说的意思,这可能还不够。一旦实例的安全性遭到破坏,需要为取证目的对实例进行快照、离线和丢弃...您需要构建新的实例,所有内容都是从可信来源重新安装的,因为您永远不能确定您已经找到了所有内容。
当然,这最后一个建议与AWS无关……标准的安全最佳实践要求对受损的计算机进行擦除和重建,而不是修补和清理。
https://stackoverflow.com/questions/27731162
复制相似问题