只有很多的日志信息和高级别的告警并不会给你与这个问题根因真正相关的答案.
为了远离这种场景, 真正的「证据」应该是什么? 你应该问什么问题?
是一个用户抱怨还是所有用户都受影响?...还是说报错的页面早已经不用了? 你需要监控最关键的业务性能.
是这个应用的问题么?
应用很复杂....如果虚拟机(如:VMware, EC2...)或你的容器(Docker)或你的中间件或你的应用运行时(如:tomcat)没有正确的 size, 或者和其他虚拟机及容器存在资源争用也可能引起性能问题....是应用服务器的问题么?
因为不正确的配置或错误的部署, 应用服务器也可能是性能问题的原因. 正确的资源池(线程, 数据源等)大小, 安全配置或日志参数都会影响性能....所以不需要 20 人的作战室, 你只需要3个人 - 一个开发, 一个测试, 一个运维 - 评估详细的性能 insight, 并引入需要的专家. 完美!