监控告警

最近更新时间:2019-10-23 17:35:05

监控指标查看

对于正在运行(或者曾经成功运行过)的流计算作业,用户有两种方式查看监控信息。

  1. 单击作业名称,在跳转页面中选择【监控告警】(如下图),在该页面可以查看作业的总览,例如启动时间、运行时长、平均处理耗时等关键指标,也可以查看数据每秒的输入输出条数、CPU 与内存的使用率等情况。
    监控告警页面选项卡
  2. 选择【作业管理】>【操作】,单击【云监控】,即可进入 云监控控制台。在这里可以查看更为详细的监控指标,也可以配置作业专属的监控告警策略。
    监控指标列表:
    注意:

    部分指标仅在上述两个界面中的其中一个有提供。

    指标中文名 指标含义 示例值
    启动时间 当前作业启动的时间点 2019-09-10 14:46:26
    运行时长 当前作业本次启动的运行时长 1天2时20分
    处理平均耗时(计算耗时) 作业中各个算子延时的平均值 3ms
    数据平均延时(数据延时) 作业当前 Watermark 水位线与系统时间戳之间的差值 0ms
    每秒输入数据 当前作业的所有数据源,每秒输入的总数据流量 16038.23字节/秒
    每秒输出数据 当前作业的所有数据目的,每秒输出的总数据流量 8753.82字节/秒
    每秒记录输入 当前作业的所有数据源,每秒输入的总数据条数 9854条/秒
    每秒记录输出 当前作业的所有数据目的,每秒输出的总数据条数 4875条/秒
    CPU 使用率 当前作业的所有计算节点之平均 CPU 使用率 12.6%
    内存使用率 当前作业的所有计算节点之平均内存使用率 87.5%
    作业堆外直接内存用量 当前作业所有计算节点之平均 JVM 堆外直接内存用量 428781Byte
    作业堆内存用量 当前作业所有计算节点之平均 JVM 堆内内存用量 1392410832Byte
    作业堆外映射内存用量 当前作业所有计算节点之平均 JVM 堆外内存映射占用内存用量 0Byte
    作业非堆内存用量 当前作业所有计算节点之平均 JVM 堆外内存用量(不含 JNI 分配) 105658232Byte

告警服务配置

流计算 Oceanus 产品的告警策略是通过云监控服务来实现的。下面我们针对一些常见的场景进行描述,详情请参见 告警概述

查看作业现有告警策略

用户可以在云监控中选择【告警配置】>【告警策略】,默认可以查看所有产品的告警策略配置。通过在“产品/策略类型”选项框中选择“流计算 Oceanus”,并单击【查询】,则可以查看所有为流计算作业配置的告警项。

新增作业告警策略

  1. 新增流计算 Oceanus 作业的告警策略时,可在上述界面单击【新增】,输入策略名称,并填写可选的备注信息。
  2. 在“策略类型”下拉框中选择“流计算 Oceanus”,下面即会提示选择“告警对象”。这里可以针对特定作业,或者所有作业进行策略配置,按 Shift 键即可多选。
  3. 当告警对象选择完毕,则可以选择“触发条件”。可以在 触发条件模板 中选择已经配置好的模板,或者新增模板。另外,如果不需要使用模板,则可以选择“配置触发条件”,这里可以对上述的多项监控指标做阈值配置和告警。
  4. 选择“告警渠道”及消息接收人、接收时段和渠道等信息,并可以配置接口回调(可选)。
  5. 当所有内容配置完毕,单击【完成】,则新的告警策略会立刻生效。