我们在AWS上以一个小的自动缩放组(通常为2-4个实例)运行一些web服务器。它的健康检查基于ELB健康检查,因此如果其中一个web服务器停止响应,它将被一个新实例替换。
这目前运作良好。如果出现中断,则终止无响应的服务器,并将新服务器分离出来以取代它们。
问题是,我们目前不知道服务器为什么会出现故障。我们从一些日志中得到了一些怀疑,但是我们不能再登录到服务器上,无法查看web日志、系统日志或其他任何东西。
我知道有一种方法可以手动将实例从自动缩放组中分离出来,但是在发生故障时有什么方法可以自动做到这一点呢?
这就是我想要发生的是,当服务器故障时,它会继续运行,但会从自动缩放组中移除,这样我们就可以分析它,看看出了什么问题。一个明显的好处是限制这种情况发生的频率,这样,如果出于某种原因,它一直在循环服务器,那么我们就不会有数百个分离的实例。
那么,这能以某种方式实现吗?如果是的话,该如何做到呢?
发布于 2018-03-15 10:55:10
有一些方法可以做到这一点。
https://serverfault.com/questions/901770
复制相似问题