我正在寻找一个指标来跟踪我们微服务中某些错误的严重程度。
例如针对外部服务读取超时。在x轴上,我可能会有时间间隔,比如每10分钟。Y轴上的度量值。
一开始,我认为这个值应该是超时请求的数量。但这并不是完全正确的,因为需要将超时次数与总请求数进行比较。
第二,我认为超时请求的百分比。但这也不是完美的,因为如果在此间隔期间请求总数为1,那么100%超时的峰值将不是关键。
我确信这是日志记录和性能指标可视化中的常见场景。
发布于 2019-03-25 02:43:31
据我所知,微服务上的错误可以计算如下:
超时错误度量
超时错误计数TOEC
这只是你有多少个超时错误的原始计数。
这将受到某个时间间隔的限制,例如每10分钟一次。
TOEC = count of time-out requests in interval
超时错误比例TOEP
这是您的超时请求错误所占的比例。
这将以某个时间间隔进行反弹,例如每10分钟。
TOEP = count of time-out requests in interval / count of all requests in interval
这是error rate的一种类型
其他指标
还有其他标准指标,这里可能有一些您感兴趣的指标Wikipedia: Precision and recall
我有一种感觉,如果你看了维基百科的文章,在没有更多信息的情况下,你的领域可能会有其他类型的错误和成功,我相信你的time-out errors
等同于TN
,它们是True Negative
。
如果你可以定义其他的(FN
,FP
,TP
),那么理论上你可以使用维基百科文章中的任何标准度量标准。这将为您提供有关如何解释微服务正在执行的how well
的大量信息。
https://stackoverflow.com/questions/55323442
复制相似问题