需要的是即时监控并报警
定位问题要分开讲
提前预测可以做的事情有很多,数据挖掘/分析之类的。当然有个更简单的方法,就是先小范围上线,进行监控。如果发现出问题了,就停止上线,进行回滚。(我们现在就是这样做的,虽然原因并不是这个 2333
服务器CPU,内存,网络等的指标,基础服务Redis, MongoDB等的运行指标,对外服务的API是否正常工作,还有数据是否正确等。
监控指标多的时候,自然报警也会相应增加,但是报警的分组与轻重缓急也是一个很麻烦的问题。还有就是部署着不同服务的机器,触发报警时候的指标也不好确定。
可能同时会有多个指标触发了报警,但是要定位问题的时候,如何可以快速的定位问题。
这个话题太大(要感谢Baidu的颜大大的指点)
先写这些吧,之后有时间再写,还有QCon上对运维监控上的一些分享也非常值得思考