我们有一个由不同的前端和后端组件组成的webapp。这些组件大部分是使用.NET框架( ASP.NET )构建的,也有一些是使用ASP.NET核心构建的。我们的产品目前是在客户本地安装的,但我们现在正在将我们的产品转移到云(AWS)。
现在我们将我们的产品转移到云上,我们也在研究如何监控我们的组件。我们一直在研究New Relic和Dynatrace,它们都给出了分布式跟踪,这将向我们展示请求在我们的应用程序中移动时的性能。但我们想知道这是否能为我们提供足够的信息来找到事故的根本原因。例如,这两个工具都能够准确地指出哪个API调用很慢,但它们没有提供为什么它很慢的细节,或者API调用中的哪个方
在我的aws账户中,我有一个针对我的SQS用户的ASG设置。最小容量为3,最大容量为8,销毁策略设置为默认。它有两个简单的伸缩策略,附加到监控SQS队列大小的云监控告警上。 这是云手表警报ApproximateNumberOfMessagesVisible >= 10 for 1 consecutive periods of 300 seconds for the metric dimensions的阈值。 当云监控告警状态在300秒后为“报警”时,ASG会添加1个实例,直到达到最大容量。同样,当云监控警报状态在300秒后为"ok“时,ASG将删除1个实例,直到达到最小容量。