监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供翔实的数据用于追查定位问题。监控系统作为一个成熟的运维产品,相对成熟的解决方案有Nigos、Zabbix、Cacti。随着业务规模的持续快速增长,监控的对象也越来越多,越来越复杂,监控系统的使用对象也从最初少数的几个SRE,扩大为更多的DEVS,SRE。这时候,监控系统的容量和用户的“使用效率”成了最为突出的问题。
随着业务的快速发展,以及互联网公司特有的一些需求,现有的开源的监控系统在性能、扩展性、和用户的使用效率方面,已经无法支撑了。
Open-Falcon具有以下更优的特性:
备注:虚线所在的aggregator组件还在设计开发阶段。
所以需要监控的每台服务器,需要安装falcon-agent,falcon-agent是一个golang开发的daemon程序,用于自发现的采集单机的各种数据和指标,这些指标包括但不限于以下几个方面,共计200多项指标:
提示:安装了falcon-agent的机器,就会自动开始采集各项指标,主动上报,不需要用户在server做任何配置(区别于Zabbix),这样做的好处,就是用户维护方便,覆盖率高。
Falcon-agent提供了一个proxy-gateway,用户可以方便的通过http接口,push数据到本机的gateway,gateway会协助高效率的转发到server端。
falcon-agent可参考 : https://github.com/open-falcon/agent
参考官方:http://book.open-falcon.org/zh_0_2/intro/
参考博客:http://www.cnblogs.com/xiaoyaojinzhazhadehangcheng/articles/8426959.html