作为流行的开源Grafana项目背后的公司,Grafana实验室为客户提供了一个名为Grafana Cloud的托管度量平台,该平台集成了Metrictank(Graphite兼容的度量服务)和Cortex(面向多租户、水平可扩展的Prometheus-as-a-Service的CNCF沙箱项目)。
https://github.com/grafana/grafana
https://grafana.com/
https://github.com/cortexproject/cortex
Grafana实验室的工程师运行Metrictank和Cortex来解决他们自己的技术问题。但随着公司开始扩大规模 - Cortex和Metrictank每秒处理数万个请求 - 查询性能问题变得很明显。这种延迟对Grafana云客户的用户体验产生了负面影响。
在没有请求路径的端到端视图下,团队试图解决这个问题,猜测缓慢的原因,推出“修复” - “很多次在黑暗中射击,只有我们很多实验后发现假设不对,“软件工程师高Veeramachaneni说。
Metrictank团队已经使用Jaeger分布式跟踪来更好地理解请求并查看一个地方的所有日志。有了使用Jaeger的经验,“我们在Cortex上加倍努力,以提高查询性能,”产品副总裁Tom Wilkie说。Jaeger允许团队深入到特定的请求并快速找到导致延迟的查询。Jaeger的结果非常出色:查询性能提高了10倍。
https://www.jaegertracing.io/
https://medium.com/jaegertracing/grafana-labs-teams-observed-query-performance-improvements-up-to-10x-with-jaeger-cec84b0e3609
结果,Jaeger还帮助了Grafana实验室的团队bug-hunting.。Veeramachaneni说:“更容易看到问题在哪里,这让我在处理问题时更有信心,因为我能准确地看到哪里出了问题。”采用Jaeger后,“人们对操作我们系统的信心增长了一个数量级。”
来阅读更多关于Grafana实验室使用Jaeger的完整案例研究。
https://www.cncf.io/case-study/grafanalabs/