朱晔的互联网架构实践心得S1E4:简单好用的监控六兄弟

这里所说的六兄弟只指ELK套件(ElasticSearch+Logstash+Kibana)以及TIG套件(Telegraf+InfluxDb+Grafana)。

上图显示了两套独立的体系,ELK和TIG(TIG是我自己编出来的,网上没有类似于ELK这种约定俗成的说法):这两套体系都由收集器+存储+展示网站构成,青绿色的收集器,蓝绿色的存储,红色的展示网站。这两套体系都有免费的组件可以使用,安装配置也相对简单(当然公司也要赚钱,他们肯定都主推Cloud版本,一般也不会用Cloud版本,肯定本地部署)。

上图是Kibana的界面,这里可以看到我们把微服务各个组件的日志都收集到了ES中,在Kibana上可以使用表达式进行各种搜索,最常用的就是按照串联微服务整个流程的RequestID或用户的UserID搜索相关日志了。很多公司的开发习惯到服务器上去一台一台搜索日志,好一点会用ansible批量搜索,这样其实是非常不方便的:·文本的搜索会比ES索引数据库的搜索慢的多。

上图是Grafana的截图,Grafana支持挺多数据源,InfluxDb也是其中的一个数据源,类似于InfluxDb的产品还有Graphite,也是不错的选择。

使用这些插件运维或开发自己不需要费什么力气就可以把我们所有的基础组件都监控起来了。有关打点如文本一开始的架构图所示,除了我们可以使用Telegraf的各种插件来收集各种存储、中间件、系统层面的指标之外,我们还做了一个MetricsClient小类库,让程序可以把各种打点的数据保存到InfluxDb。

对于MetricsClient,可以在代码中手工调用也可以使用AOP的方式进行调用,我们甚至可以为所有方法加上这个关注点,自动收集方法的执行次数、时间、结果(正常、业务异常、系统异常)打点记录到InfluxDb中,然后在Grafana配置自己需要的Dashboard用于监控。

那么:·出现问题的时候,我们可以在很短的时间内判断出哪块有问题。·还可以初步判断出问题的原因是异常导致还是突增的压力所致。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180925A034A800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券