首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI-OPS Agent MVP 架构方案

AI-OPS Agent MVP 架构方案

原创
作者头像
行者深蓝
修改2025-08-29 07:47:48
修改2025-08-29 07:47:48
1260
举报

1. 概述

本方案提出一套 最小可行、可扩展、可审计 的 AI 驱动 OPS Agent 架构,通过 LLM、规则引擎、工具调用三者协同,驱动 MAPE-K 闭环:

Perceive(检查) → Analyze(诊断) → Plan(生成计划) → Gate(策略) → Execute(动作) → Verify(验证) → Learn(沉淀)

目标是将典型运维场景抽象为 可调用的技能包

  • 模板化规则:触发条件、风险阈值
  • Plan DSL 片段:可执行变更步骤
  • 验证查询:确保可观测、可回滚

2. 典型运维场景 → 抽象角色的动机

典型运维活动中,问题从“信号”到“决策”再到“变更”需要跨越多个步骤:

  • 故障异常:异常指标 → 抽取 Top-K → 执行索引或 SQL 改写 → 验证回归
  • 证书轮换:检测过期 → 计划滚动替换 → 网关适配 → 检查连通性
  • 扩缩容:发现瓶颈 → 提议扩容 → 风险评估 → 调度策略 → 自动验证
  • 灰度与回滚:探测新版本异常 → Canary 策略生成 → 调用 Rollout API → 验证 SLO 恢复

在这些场景中,我们需要 五类能力

  1. 持续观测:OTel、Prometheus、Loki、Trace 采集
  2. 聚合分析:分钟级指标计算、跨服务调用链、异常检测
  3. 变更计划:根据证据和模板生成 DSL + 回滚路径
  4. 自动执行:调度器/适配器完成变更
  5. 知识沉淀:RCA、案例、拓扑、日志、Diff 回收进入知识库

于是,我们抽象出 Sensor / Analyst / Planner / Gatekeeper / Executor / Librarian / Orchestrator 七类角色,让系统具备“看→想→做→学”的闭环能力。


3. 运维可观测的“五维一图”

我们将可观测性数据归约为五大核心维度:

  • 指标 / 时序:服务、实例、系统的 p95、QPS、错误率
  • 日志:原始事件、解析后的模式
  • 链路:跨服务调用、Span 聚合、依赖拓扑
  • 拓扑:资源关系、动态拓扑、跨时态演进
  • 知识库 / 向量:RCA 案例、Runbook、代码 Diff、FAQ、LLM Embedding

这就是 “五维一图”

  • 统一的数据容器:指标、日志、链路、拓扑、知识
  • 证据链的上下文:从近线明细到长周期知识的无缝切换
  • AIOps 的决策基座:分析、计划、验证共用统一的证据框架

4. 双引擎落地:OpenObserve + PostgreSQL + Timescale + AGE + pgvector

4.1 问题绑定与职责拆分

近线 I/O 面(高吞吐、低延迟)
  • 特征:明细多、吞吐大、写多读少、查询按时间窗和标签过滤
  • 典型内容:日志、指标、追踪
  • 诉求:秒级到分钟级写入可达、低成本长周期保留
  • 方案OpenObserve(OO) = 对象存储 + 列式(Parquet/Lance)
    • 顺滑写入
    • 高压缩比
    • 按时间/标签快速筛列
治理/知识面(融合多、解释强)
  • 特征:聚合计算、拓扑时态、知识复用
  • 典型内容:RCA 证据、调用图、相似案例
  • 诉求:可解释、可 JOIN、多维证据一次查询产出
  • 方案PostgreSQL + Timescale + AGE + pgvector
    • 关系:结构化
    • 时序:连续聚合
    • 图谱:跨时态 k-hop
    • 向量:相似案例检索

5. 架构总览

关键路径:Sensor → Analyst → Planner → Gatekeeper → Executor → Librarian → Orchestrator

  • 数据平面:OpenObserve (明细) + PostgreSQL/Timescale (聚合) + AGE (拓扑) + pgvector (知识)
  • 控制平面:CloudEvents 事件总线 + Orchestrator 状态机
  • 接口层:统一 OpenAPI + Plan DSL
  • 策略层:OPA / Cedar 门控

6. 关键组件设计

模块化设计,插件化适配器,统一 CloudEvents 协议。

模块

职责

输入

输出

存储

接口

SLO

Sensor

接入信号

OTLP、Prom、logs

OO 明细

OO、PG

/ingest/*

写入 p99<2s

Analyst

异常检测

OO 明细、PG

聚合、analysis.findings

PG

/analyze/run

10min 完成聚合

Planner

生成计划

kb_chunk、证据

plan.proposed

PG

/plan/generate

<30s 首版计划

Gatekeeper

策略评估

plan.proposed

plan.approved

PG

/gate/eval

自动评估<1s

Executor

执行动作

plan.approved

exec.step.result

OO、PG

/adapter/exec

单步 15m 超时

Librarian

知识沉淀

日志、diff

kb_doc、kb_chunk

PG

/kb/ingest

5min 内可检索

Orchestrator

状态机调度

各类事件

case.updates

PG

/case/*

状态原子迁移


7. 数据存储设计

  • OO:近线明细(logs、metrics、traces)
  • PG / Timescale / AGE / pgvector
    • 聚合:metric_1m、service_call_5m、log_pattern_5m
    • 拓扑:topo_edge_time
    • 事件:event_envelope、evidence_link
    • 知识:kb_doc、kb_chunk

8. 典型工作流

8.1 最短闭环示例

  1. Sensor:写 trace/log 到 OO,登记 oo_locator
  2. Analyst:聚合 Top-K → 写 event_envelope(ERROR) + evidence_link
  3. Planner:结合 kb_chunk,生成 Plan DSL(含回滚+验证)
  4. Gatekeeper:OPA 策略评估 → 输出 plan.approved
  5. Executor:调用适配器,写 exec.step.result,日志回灌
  6. Orchestrator:推进 VERIFY,SLO 命中 → CLOSED,否则 ROLLBACK
  7. Librarian:沉淀 RCA、Diff、日志到 kb_doc/kb_chunk

8.2 状态机

NEW → OBSERVE → DIAGNOSE → PLAN → GATE → EXECUTE → VERIFY → CLOSED

↘ ROLLBACK / MITIGATE / PARKED


9. MVP 范围

  • 接入 OTel、Prom、Loki → OO
  • PG 模型落地:metric_1m、service_call_5m、event_envelope
  • 统一 Plan DSL & OpenAPI
  • 初版 Orchestrator 状态机 + CloudEvents 总线
  • Gatekeeper 集成 OPA 策略引擎

10. 后续扩展

  • 引入向量召回的自适应策略选择(RAG)
  • Executor 增加 GitOps / Helm / Argo / Terraform 适配器
  • Librarian 增强代码 Diff、PR、RCA 自动提炼
  • 完整审计链 + 多租户 RBAC

11) 典型运维场景库(覆盖:部署 / 上线 / 监控 / 变更 / 故障处理 / 优化 / FinOps)

结构化模板:触发规则 → 证据链(五维一图) → Plan DSL 片段 → 门控策略 → 验证查询 → 审计/KPI → 失败分支

11.1 发布上线(金丝雀→蓝绿→自动回滚)

  • 触发:新版本发布后 5–10 分钟内 p95>基线×1.2err_rate>1%
  • 证据链(五维一图)
    • 指标:metric_1m(p95, err);链路:service_call_5m;日志:log_pattern_5m;拓扑:topo_edge_time;知识:kb_chunk(上线复盘)
  • Plan DSL 片段

apiVersion: aops/v1

kind: Plan

spec:

steps:

- id: canary10

action: k8s.rollout

params: {deployment: checkout, strategy: canary, weight_pct: 10}

verify:

checks:

- type: metrics

query: ref:queries.q_slo

pass_if: p95_ms < 800 and err_rate_pct < 1

rollback:

action: k8s.rollout

params: {deployment: checkout, strategy: rollback, to_revision: prev_stable}

  • 门控:窗口 00:00–06:00 JST;risk<=low;变更冻结日禁止。
  • 验证:最近 5 分钟 p95<800 & err<1%;关键依赖 Span 超时率 < 2%。
  • 审计/KPI:Change Failure Rate,MTTR,Lead Time。
  • 失败分支:自动回滚→降级(Feature Flag)→PARKED。

11.2 配置下发 / Feature Flag 切换

  • 触发:A/B 实验或灰度门槛达到。
  • 证据链:指标(成功率/转化率),日志(错误模式),知识(实验守则)。
  • Plan DSL 片段

steps:

- id: toggle-ff

action: http.call

params: {method: POST, url: https://flag/api/toggle, body: {flag: newAlgo, percent: 25}}

verify:

checks:

- type: metrics

query: ref:queries.q_exp

pass_if: conv_rate_delta >= 0 and err_rate_pct < 1

  • 门控:影响面 < 20%;实验安全阈值;回滚为 percent: 0

11.3 证书轮换(TLS/mTLS)

  • 触发:证书距离过期 < 14 天。
  • 证据链:日志握手失败、指标 TLS 错误计数、拓扑(证书依赖边)。
  • Plank8s.secret 更新 → gateway reload → 逐层拨权。
  • 验证:合成探测 + 链路握手时延 < 50ms;无 495/525 类错误。

11.4 数据库变更(DDL/索引)

  • 触发:Top-K 慢 SQL;rows_examined/rows_sent 比例异常。
  • 证据链:慢日志模式、Span DB 层耗时、调用图写热点。
  • Plan DSL

steps:

- id: idx-create

action: sql.exec

params: {dsn: pg://prod, sql: "CREATE INDEX CONCURRENTLY IF NOT EXISTS ix_o_uid ON orders(user_id);"}

guard:

preconditions:

- type: window

expr: now in [01:00-04:00 JST]

verify:

checks:

- type: metrics

query: ref:queries.q_sql_p95

pass_if: p95_ms < baseline*0.8

rollback:

action: sql.exec

params: {dsn: pg://prod, sql: "DROP INDEX IF EXISTS ix_o_uid;"}

11.5 弹性扩缩容(HPA/KEDA + CA)

  • 触发cpu_pct>75%queue_len>阈值 持续 10 分钟。
  • 证据链:指标 CPU/RAM/QPS、链路瓶颈段、日志限流/超时模式。
  • Plan:上调 HPA 目标 → 触发 Cluster Autoscaler → 校验成本与 SLO。
  • 验证p95 恢复 < 800ms;扩容成本 < 预算上限。

11.6 外部依赖超时(第三方 API)

  • 触发:下游 callee=payments Span 超时率 > 5%。
  • Plan:打开熔断 → 降级(缓存/静态报价)→ 限流保核心路径。
  • 验证:核心交易成功率 ≥ 99.5%,超时率 < 1%。

11.7 缓存热点/穿透治理

  • 触发:命中率骤降 + 后端 QPS 暴涨。
  • Plan:引入 Bloom 过滤/负缓存、热点 Key 预热、限频。
  • 验证:命中率回升 ≥ 90%,后端 QPS 回落。

11.8 日志噪声抑制(成本+可读性)

  • 触发log ingest rps 激增且与错误率弱相关。
  • Plan:运行时采样、动态日志级别、结构化字段裁剪。
  • 验证:诊断召回率不下降;日志成本下降 ≥ 30%。

11.9 FinOps:降本不降 SLO

  • 触发:本月预测成本 > 预算 110%;低利用率节点占比 > 20%。
  • 证据链:指标(CPU/RAM 利用)、拓扑(空载边)、知识(历史优化案例)。
  • Plan
    • Rightsizing(降配/实例族切换)
    • Scale-to-zero 非峰服务
    • 存储分层(热/温/冷)+ 日志保留期/采样率下调
    • Spot 混池 + 关键组件反亲和
  • 验证:SLO 不破;月度成本下降 ≥ 20%。

11.10 灾备与容灾切换(AZ/Region)

  • 触发:主区健康度评分 < 阈值或演练日历到期。
  • Plan:双写校验 → 流量切至 DR → 数据一致性验证 → 观测回传。
  • 验证:切换 ≤ 5 分钟,数据差异 < 0.1%。

11.11 安全应急(高危 CVE)

  • 触发:SBOM 命中高危 CVE。
  • Plan:基镜像修复 → 受影响服务滚更 → 运行时策略加固(seccomp/AppArmor)。
  • 验证:漏洞扫描通过;SLO 无退化。

11.12 数据质量/ETL 延迟

  • 触发:DAG 延迟 > 2×SLA;空值/异常值占比激增。
  • Plan:增量重算 → 冷数据回填 → 下游告警抑制。
  • 验证:完整性/新鲜度指标恢复。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 概述
  • 2. 典型运维场景 → 抽象角色的动机
  • 3. 运维可观测的“五维一图”
  • 4. 双引擎落地:OpenObserve + PostgreSQL + Timescale + AGE + pgvector
    • 4.1 问题绑定与职责拆分
      • 近线 I/O 面(高吞吐、低延迟)
      • 治理/知识面(融合多、解释强)
  • 5. 架构总览
  • 6. 关键组件设计
  • 7. 数据存储设计
  • 8. 典型工作流
    • 8.1 最短闭环示例
    • 8.2 状态机
  • 9. MVP 范围
  • 10. 后续扩展
  • 11) 典型运维场景库(覆盖:部署 / 上线 / 监控 / 变更 / 故障处理 / 优化 / FinOps)
    • 11.1 发布上线(金丝雀→蓝绿→自动回滚)
    • 11.2 配置下发 / Feature Flag 切换
    • 11.3 证书轮换(TLS/mTLS)
    • 11.4 数据库变更(DDL/索引)
    • 11.5 弹性扩缩容(HPA/KEDA + CA)
    • 11.6 外部依赖超时(第三方 API)
    • 11.7 缓存热点/穿透治理
    • 11.8 日志噪声抑制(成本+可读性)
    • 11.9 FinOps:降本不降 SLO
    • 11.10 灾备与容灾切换(AZ/Region)
    • 11.11 安全应急(高危 CVE)
    • 11.12 数据质量/ETL 延迟
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档