用于系统监控和管理的自主可观测性旨在使用 GenAI 和机器学习来自动检测、诊断和解决问题。
译自 The Path to Autonomous Observability,作者 David Lotan Bolotnikoff。
如今,在关于云可观测性的讨论中,话题往往从“什么是可能的”转向“什么是实用的”。这些讨论往往会突出当前可观测性流程、工具和财务模型的不足。
随着可观测性数据工作负载以空前速度增长,传统的仪表盘和基于警报的方法难以跟上。这阻碍了决策,延长了故障排除时间,并导致平均修复时间 (MTTR) 增加。技术团队承受着将关键业务应用程序保持在峰值性能的压力,但普遍存在的数据孤岛、过于手动化的流程和膨胀的成本无法提供必要的价值或投资回报 (ROI)。
人工智能的出现。
生成式人工智能集成正在为可观测性开辟新的途径。人工智能驱动的副驾驶在各个平台上变得越来越普遍,改变了我们与遥测数据交互的方式,并显著改善了日常运营。然而,人工智能驱动的可观测性的潜力远远超出了当前的实现。
自主可观测性是系统监控和管理未来的前瞻性愿景,旨在利用生成式人工智能和机器学习来自动检测、诊断并最终解决问题,无需人工干预。尽管这项技术仍在不断发展,大规模采用的时间表仍不确定,但它能够让工程团队专注于战略性任务,同时保持系统性能和可靠性的潜力是显而易见的。
随着这些技术的不断发展,追逐警报、处理仪表盘和编写复杂查询的日子可能成为过去。
与任何重大的技术转变一样,这一进程将分阶段展开,其中一些阶段已经触及用户,而另一些阶段仍处于萌芽状态。
基于当前可用的 AI 模型,这些模型可能会快速且不可预测地发展,自主可观测性的路径将涉及多个关键维度的进步:
在这些维度的进步将引领我们走向一个可观测性完全自动化的未来,彻底改变技术团队监控和管理系统的方式。
随着我们在自主可观测性的各个组成部分上不断前进,我们将经历几个成熟度和实际应用阶段。了解这些级别对于衡量进展和设定未来目标至关重要。
以下框架概述了组织在向自主可观测性演变过程中的持续路径。这些阶段并非代表固定的里程碑,而是反映了人工智能技术的动态特性及其在可观测性中的不断扩展作用。
虽然部分自动化(级别 2)在中短期内可以实现,条件自动化(级别 3)在预定义条件下对已知问题是可以实现的,但完全自动化(级别 4)存在重大挑战。AI 目前在没有人工干预的情况下处理动态系统复杂性的能力仍然有限,尤其是在高风险情况或新情况中。然而,机器学习和自适应算法的进步正在稳步地将我们带到实现完全自动化的目标。
随着我们逐步进入这些级别,重要的是不仅要关注技术进步,还要确保 AI 驱动的可观测性系统是可信的、透明的、可适应的和安全的。为了促进采用,这些系统必须与业务需求、监管要求和行业标准保持一致。确保 AI 决策的透明度并保证关键任务应用程序的安全将对于使这些系统有效和可持续至关重要。
通过尽早解决技术和信任方面的挑战,组织将能够更好地克服障碍,并继续朝着完全自主的可观测性迈进。
遵循自主可观测性的这一框架,我们目前正在从手动时代过渡到辅助可观测性,并迅速向部分可观测性自动化的早期阶段迈进。事实上,在 Logz.io,我们已经走在了前列,拥有 AI 驱动的聊天机器人助手,提供了自然语言查询和早期自动根本原因分析等重大进步。
了解这种 AI 驱动的进步如何展开将有助于重新定义我们在可观测性方面对人员、流程和技术的态度。虽然自主可观测性是未来,技术也在不断进步,但我们仍处于其早期阶段。