首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

4.2 集中监控体系

所谓“监控”,即包括“监”+“控”,即应该具备对运维数字世界的运行情况进行感知、决策、应急处置的能力,是业务连续性保障能力的基础。因为要感知,所以监控需要具备实时的数据采集能力,而监控采集的性能、容量、运营等数据又为智能运维提供数据资产。由于生产系统运行涉及面极广,监控工具很多,企业很自然的会有合而为一的决策,像集中监控就是一个常见的项目。但是,需要关注的是,一方面市场上成熟的监控系统很多,不同层面的监控工具关注点又各不一样,通常很难选择一个包罗所有能力的监控系统;另一方面企业里的监控系统经过一段时间沉淀,原有监控系统最大的价值已经不是监控系统本身,而是上面的监控配置项,事实上很多技术架构及功能并不优秀的监控系统很难替换的原因就在于此。所以,本文讲的集中监控不是讲一个监控系统,而站在运维组织角度看监控体系。

02

[linux][system]atop的介绍和使用

前言 Linux上运行大量的后端的业务程序,往往希望得到更快的响应速度,更小的延迟,甚至有严格的PCT 99的指标。而操作系统的复杂度很高,多个因子之间可能会互相影响,从而影响到业务的指标。 在作者的工作环境中,经常使用到atop工具进行问题分析。atop是一个小巧的、高性能、比较全面的系统/进程级别的监控软件,下面就来介绍一下它的主要功能。 分析 源代码 源代码目前主要维护在github上面,https://github.com/Atoptool/atop 代码的原作者也是现在的maintainer通常会在几周甚至个把月的时间处理一下Pull Request,如果有新的改动需要合入到upstream,还是需要一点耐心的。 基本原理介绍 在源代码中的atop.c中有如下描述:

02

10 Confluent_Kafka权威指南 第十章:监控kafka

Apache Kafka有许多针对其操作的度量,这些度量指标非常多,会让人混淆哪些是重要的,哪些是可以忽略的。这些度量的范围从关于通信量总体速率的简单度量,到针对每种请求类型的详细时间度量,再到每个topic和每个分区的度量。他们提供了broker中的每个操作的详细视图,但也可能使你成为负责管理监视系统的人员的缺点。 本节将详细介绍一直要监控的最关键的度量标准,以及如何响应他们。我们还将描述一些再调试问题的时候需要账务的更重要的度量标准,然而,这并不是可用的度量标准的详细列表,因为列表经常发生变化,而且其中有许多只对硬编码的kafka开放人员有用。

03
领券