如:在线系统的时延,作业计算系统的作业完成时间等。
反映系统的吞吐量。如:请求数,发出和接收的网络包大小等。
帮助发现和定位故障和问题。如:错误计数、调用失败率等。
反映系统的饱和度和负载。...比如,系统需要经常调用的一个库的接口可能耗时较长,或偶有失败,可制定 Metrics 以测量这个接口的时延和失败数。...批处理作业(Batch jobs):这类应用通常为一次性的,不会一直运行,运行完成后便会结束运行。如数据分析的 MapReduce 作业。 对于每一类应用其通常情况下测量的对象是不太一样的。...线程池:排队的请求数,正在使用的线程数,总线程数,耗时,正在处理的任务数等。
缓存:请求数,命中数,总时延等。...buckets 的设计可遵从如下经验:
需要知道数据的大致分布,若事先不知道可先用默认桶 ({.005, .01, .025, .05, .1, .25, .5, 1, 2.5, 5, 10})或 2