通用业务场景下,监控告警 是必不可缺的运维模块,如何有效监控到告警信息并及时进行自动化处理,是每个业务方都需要思考和面对的问题。 业务异常自动处理通知 依赖 EB + 云函数 SCF,可以实现接收到告警信息后的业务自动处理逻辑,并将处理完成的信息推送给用户,保证业务稳定性。 异常消息记录存储 通过 EB-iPaaS,您也可以将 SaaS 业务产生的异常告警信息快速发送到云上,利用云函数、日志服务、COS 等产品,实现异常消息的分析处理以及永久存储。 云服务业务日志分析处理解决方案 除了告警推送外,业务日志分析也是业务方经常需要关注的问题,云上业务平台的事件如何与第三方成熟 SaaS 数据分析工具进行对接,EB - iPaaS 也为您提供了快速搭建该架构的解决方案 最佳实践:云产品告警事件到 IM 服务的告警推送 基本架构 前期准备 获取腾讯云 SecretId 和 SecretKey,用于 EB 和 iPaaS 之间绑定 搭建好您的企业微信、钉钉或飞书机器人,
作者:腾讯云云函数团队产品经理 April 导语 本文演示了如何捕获流计算 Oceanus (Flink) 集群状态变更,并通过事件总线(EventBridge)发送到企业微信或钉钉、飞书客户端。 流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。 通过结合事件总线 EventBridge + 云函数 SCF,可以实时捕获流计算 Oceanus 集群异常事件并完成推送,本文演示如何捕获流计算 Oceanus 集群状态变更,并发送到企业微信或钉钉、飞书客户端 架构设计 整体架构设计如下图,从图中可以看出,当 Oceanus 集群发生状态变更时(如实例异常,实例隔离,实例下线等), Oceanus 系统会产生告警事件并主动推送给 EB,经过 EB 绑定的告警规则筛选后 ,完成推送链路搭建。
腾讯云精选爆款云服务器限时体验20元起,云数据库19.9元/年起,还有更多热门云产品满足您的上云需求
笔者最近关注到,腾讯云以零售中台为例,基于EventBridge 提供了统一的事件投递规范,业务方产生的不同类型事件(如用户下单、商品入库、订单更新等) 通过 EB 步骤一:绑定事件源: EventBridge 目前支持三类事件源的投递: 云服务事件源: 云服务产品产生的事件,如监控告警事件、云上操作审计事件等,该类事件默认投递至云服务事件集,由业务方主动投递,用户不可修改或关闭 整体架构设计如图,从图上可以看出,当云服务器某台机器出现异常告警, CVM 会自动产生告警事件并主动推送给 EB,经过 EB 绑定的告警规则筛选后,完成到通知渠道的消息触达及时通知到用户,同时触发云函数 以「云服务器运行异常」事件告警配置为例,您可以选择指定的事件告警类型,也可以选择全部告警事件,详细事件匹配规则请参见 管理事件规则; 管理事件规则:https://cloud.tencent.com/document 告警链路测试 配置完成后,回到事件集控制台,选择刚刚已绑定的事件集,单击发送事件,可以选择已绑定的事件规则模版,单击发送进行测试,如果同时收到了推送消息并自动进行回滚,即可确认您的业务故障自动化运维架构已完成搭建
作者:腾讯云云函数团队产品经理April 导语|本文演示了如何捕获流计算 Oceanus (Flink) 集群状态变更,并通过事件总线(EventBridge)发送到企业微信或钉钉、飞书客户端。 通过结合事件总线 EventBridge + 云函数 SCF,可以实时捕获流计算 Oceanus 集群异常事件并完成推送,本文演示如何捕获流计算 Oceanus 集群状态变更,并发送到企业微信或钉钉、飞书客户端 架构设计 整体架构设计如下图,从图中可以看出,当 Oceanus 集群发生状态变更时(如实例异常,实例隔离,实例下线等), Oceanus 系统会产生告警事件并主动推送给 EB,经过 EB 绑定的告警规则筛选后 云函数投递:事件总线支持通用 HTTP 协议的 webhook 直接投递,如果您的投递目标对于请求格式有严格要求,建议先通过云函数完成投递事件格式转换,再通过 EB 将原始事件直接发送给指定函数,完成推送链路搭建 配置完成后,即可在腾讯云事件总线控制台,完成告警规则的查看与管理。 短信告警效果 欢迎识别下方二维码,进入「流计算 Oceanus」技术交流群,和产品经理、技术爱好者一起探讨!
事件总线 EventBridge 作为云上事件连接器,为云上各个服务产生的事件提供了统一的收集、处理、分发解决方案,帮助用户快速搭建事件驱动(EDA)架构。 功能价值 快速定位:在实际事件处理链路中,如果事件目标未接收到事件或与预期不符,可以通过日志查看事件的匹配、投递情况,方便定位异常原因。 事件记录:对于云服务事件集收到的告警事件,配置相关规则后,会自动上报对应事件日志,方便用户查询异常告警事件信息,并进行相应处理。 配置流程 1.在新建事件集的同时,完成上报方式的配置,如图: 2.创建成功后,根据实际需要绑定事件源、事件规则、事件目标,完成事件处理完整链路的搭建。 from=15940 如您对产品有任何疑问 ️ 或建议 ,欢迎下方留言交流。
【姿势归类】 使用习惯 使用说明 适用场景 直接使用 官网的监控产品能力,通过控制台查看监控指标,告警管理,全面使用云提供的能力 针对关注业务发展,未有太多人力投入基础支撑细化建设 接入告警系统 借助官网的监控产品能力 ,通过告警管理二次开发接入公司统一告警平台 上云阶段,或者公私有云混布的客户,借助上云前完善的运维体系,快速搭建云上告警逻辑 精细化系统 通过腾讯云的api拉取全量的云监控到本地完善监控系统 互联网公司 【产品介绍】 云监控(Cloud Monitor,CM),收集并通过图表展示腾讯云云产品自助上报的各项监控指标和用户自定义配置上报的监控指标,以及针对指标设置告警。 为您提供立体化云产品数据监控、智能化数据分析、实时化异常告警和个性化数据报表配置,让您实时、精准掌控业务和各个云产品健康状况。 通过创建通知模版,可将业务告警规范化通知到业务团队,比如按业务划分告警接收人等。
当异常发生时,警报通常是最快也最有效的方式来提醒你尽快采取行动。但是过于恼人的警报也同样被诟病,例如发出误报或需要繁重精细的调校来保证报警系统的正常工作。 你可以在 Threat Stack 云安全平台使用手册 这个网站中了解到搭建安全报警系统的一些非常值得尝试的代码实践内容。 躲开“噪声”:如何设置警报的严重等级 当一些不寻常的事件在你的云服务环境中发生时,你希望能被告警以便及时做出处理。 回到基础:优化得到更加高效的报警系统搭建流程 你需要的报警系统,要能够在需要你采取行动应对异常的时候引起你的注意,但同时,你也不能本末倒置地把所有的时间和精力都用于搭建和仔细精调每一个警报规则上。 实际上,如果你能把搭建报警系统的流程优化的越好,你就能有更多的时间去关注应对异常上。 从基础的报警规则集开始是一个不错的选择,而且这套规则集经过调整后已经用在了很多的产品上。
背景介绍 监控与报警系统对于业务生产环境来说是不可或缺的,一旦有故障发生,需要有完善的监控告警链路,保证告警消息可以实时完成推送并进行处理。 流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。 通过结合 EventBridge + 云函数 SCF,可以实时捕获 Oceanus 集群异常事件并完成推送,本文演示如何捕获 Oceanus 集群状态变更,并发送到企业微信或钉钉、飞书客户端。 架构实现 整体架构设计如下图,从图中可以看出,当 Oceanus 发生状态变更时(如实例异常,实例隔离,实例下线等), Oceanus 系统会产生告警事件并主动推送给 EB,经过 EB 绑定的告警规则筛选后 云函数投递 事件总线支持通用 HTTP 协议的 webhook 直接投递,如果您的投递目标对于请求格式有严格要求,建议先通过云函数完成投递事件格式转换,再通过 EB 将原始事件直接发送给指定函数,完成推送链路搭建
那么研发是如何通过定义指标,管理指标,分析指标,从而快速感知自己负责的模块发生异常并定位原因呢?腾讯会议通过腾讯云监控团队自研的监控平台来实现。 埋点上报 研发在产品开发初期就会为产品的 SLA 下很多功夫,在关键路径加入上报指标的埋点。 例如:用户登录过程的一个模块会分解成十几个逻辑步骤,而每个步骤由会分解成不同的指标,比如请求成功或者失败。 无阈值检测 & 智能告警 成千上万个指标,异常又是如何快速被发现呢?由于业务流量突增,手动更改告警的阈值规则会不准确。 通过时间序列算法,腾讯云监控团队自研 Metis ,可以帮助腾讯会议智能检测出异常,并把相同时间段内相似异常特性的指标,关联收敛成一条告警推送。 业务点击打开告警查看详情时,不仅可以看到发生异常的指标,还可以展开看到每台机器上报该指标的单机视图,方便业务快速清晰地定位问题。
【导读】了解腾讯云的同学肯定知道,腾讯云的产品类型非常的丰富,其中,日志服务CLS是非常基础的底层服务之一。同样,任何云端产品它的日志功能应该也是最基础的功能。 日志服务已经打通腾讯云上多个云产品的日志,简单配置即可将云产品日志投递到日志服务中来。 6. 成本低廉 用户无需基于 ELK 等开源框架从零搭建,也无需担忧资源被闲置浪费,省去高昂的硬件成本。 投递任务管理功能就是把旧的日志记录保存到腾讯云的COS对象存储服务中,你可能不容易理解,为什么会有这个功能。因为,随着产品服务周期的变长,特别是用户非常多的产品服务,很容易产生大量的日志记录。 监控告警 ? 监控告警模块应该是日志服务最常用的功能之一,当发生服务异常时,可以及时通知我们进行处理。这个模块支持告警策略设置、历史告警记录查询、通知模版设置三个子功能。 ? 同时,还能够显示Top10的告警记录,让我们有针对性的分析主要矛盾问题。 ? 通知模版的作用是设定服务异常和警告处罚的通知机制,告诉运维人员当前服务发生了告警。
在公司技术中台化和自研业务上云的驱动下,所有的直播应用均使用视频云平台支撑。平台本身技术强大,许多海内外皆知的外部视频平台皆基于腾讯视频云搭建,腾讯云带宽早已于去年突破百T峰值量级。 如何了解设备整体水位与资源趋势? 前面提及过,各大系统基于视频云技术搭建,视频云本身存在较多的视频、音频处理工作,设备量的需求日益增长。 监控系统如何有效监测上述这些指标,使告警收敛到合适范围? 常见的监控手段为阈值监控,对业务形态比较熟练的开发、运维人员在指标上设置一个“恰当”的阈值,一旦偏离阈值,系统即发送告警到开发人员。 告警相似性 经过告警检测后,产生的告警量可能还是不少,能对告警进行合并显然是非常重要的需求,我们其中的一个解决办法是先通过聚类算法对各告警源进行聚类(采用one-pass clustering, k-means 较为常见的处理方式是: 产品增加投诉入口,用户的反馈通过接口上报至指定位置。 将投诉信息分词,分词方法很多,不再详述。 分析词频,通过无阈值监控,对突增词频做重点分析处理。
本文介绍如何基于腾讯云的各种云产品优雅地搭建个人网站,涉及的云产品有云服务器、SSL、企业邮箱、对象存储、CDN、云函数、API网关、云监控等。 概述 如今云服务提供商们提供了大量涵盖计算、网络、存储等方面的云服务,其中一些云产品功能强大,如果能善加利用可以大幅降低开发和运维的成本。 对于消息通知这种异步、无状态的功能,很适合使用云函数编写,比如接收到请求后像指定接收人发送一封邮件。 2.API网关 云函数的触发方式有多种,最常用的有定时任务和API网关。 告警部分则在云监控中配置,可以配置多种报警策略如对cpu、内存、带宽等指标超出阈值后进行告警,以及一些机器故障事件(如ping不可达、机器重启等)。对COS的报警同样可以在此配置。 个人开发者可以把个人网站当做一个产品来做,思考如何利用好公有云的各种云产品资源来提升用户体验,提高开发效率,降低运维成本。
为便于读者了解腾讯云中间件产品的最新动态,腾讯云中间件推出产品月报专栏,每月一期。本月的三项动态如下: 1. 支持熔断事件:支持熔断事件和告警配置。 优化告警配置功能:支持四种不同的告警形式配置:日志关键词告警、服务状态告警、部署组健。 TSF 支持端云联调:您无需搭建VPN即可实现本地应用和部署在云端的 TSF 应用相互调用测试联调。 异常事务告警:控制台手动重试异常事务。助您及时感知异常事务,在处理造成事务异常的原因后便捷的完成异常事务的重试。 近期规划 1. 增加多RestTemplete实例的场景兼容。 2. 目前该产品功能可在腾讯微服务平台TSF控制台中查找任务调度功能,未来8月底实现产品独立化。 即将上线新特性 任务编排:通过构建调度任务的上下游依赖关系完成复杂的任务调度逻辑,提供可视化的流程编排方式。
背景介绍 对于企业的生产环境而言,监控与报警不可或缺的,完善的监控与及时的报警和自动化处理,可以帮助企业快速定位并解决问题,从而减少经济损失。 本文以服务器异常为例,为您介绍当云服务器产生告警事件后,如何基于 EventBridge 事件总线和 SCF 云函数,实现告警消息的实时推送和硬盘快照的自动回滚,完成自动化运维架构的快速搭建。 背景介绍 整体架构设计如图,从图上可以看出,当云服务器某台机器出现异常告警, CVM 会自动产生告警事件并主动推送给 EB,经过 EB 绑定的告警规则筛选后,完成到通知渠道的消息触达及时通知到用户,同时触发云函数 以「云服务器运行异常」事件告警配置为例,您可以选择指定的事件告警类型,也可以选择全部告警事件,详细事件匹配规则请参见 管理事件规则; 管理事件规则:https://cloud.tencent.com/document 告警链路测试 配置完成后,回到事件集控制台,选择刚刚已绑定的事件集,单击发送事件,可以选择已绑定的事件规则模版,单击发送进行测试,如果同时收到了推送消息并自动进行回滚,即可确认您的业务故障自动化运维架构已完成搭建
作者:李光,现任职于腾讯社交网络运营部/织云产品团队,负责织云监控告警平台规划与运维新产品开发工作,具有多年业务运维、运营规划经验。 金融行业是国家命脉行业,受限于银监会、证监会等监管机构的安全合规的要求与商业竞争的考虑,一般不会把核心业务搬上公有云,而更偏向自行搭建或者采用第三方厂商的成熟方案 (例如腾讯金融云),因此在将来很长的一段时间内 这里出一个问题,现在形态多样的金融云、医疗云、政务云、游戏云与各个银行与券商搭建的私有云,这里有什么共同点与不同点呢?先抛砖引玉的给出答案。 对象的监控与告警:例如服务器down了、网络设备的运行log异常了等要能监控到(视图展示)并且及时的告警出来。 总结 为了更好的运维管理我们设计了这套平台,平台里面非常重要的一个设计理念点:“简”,化繁为简。做运维平台产品要简单,解决这么复杂的用户环境、场景的情况下,其实“简”是非常重要的。
维度是指标体系的核心,没有维度,单纯说指标是没有任何意义的。根据产品灰度和上线的节奏来规划指标体系,如下图指标体系框架。 ? 其中“确认指标和目标是否匹配”也就是确认指标能否100%反映评估目标的变化,如果不完全匹配,则需要反过来修正评估指标,使其完全匹配;下面重点从产品规模质量、健康度、用户属性等6个方面来介绍如何“设计合适的评估指标 ,错过了最佳挽留时机;对于低频产品,按月监控即可;可通过看用户的周活跃天数来判断该产品是高频还是低频,通常周活跃天数大于3,是高频产品,反之属低频产品。 渠道质量 这部分内容仅适用于独立app产品,因为独立app需要通过不同渠道去推广引导用户下载安装,不同渠道的用户质量差异比较大,所以需要分渠道来监控;平台资源产品不需要关注这块,如:手Q动态里面的平台资源产品 规划完成后必须用以下四个准则来检验指标体系的合理性: 1、完备性:通过指标体系能够对产品的经营状况一目了然;比如产品现在增速如何,现状是否健康等; 2、系统性:通过指标体系能够粗略定位到数据波动的原因;
维度是指标体系的核心,没有维度,单纯说指标是没有任何意义的。根据产品灰度和上线的节奏来规划指标体系,如下图指标体系框架。 ? 其中“确认指标和目标是否匹配”也就是确认指标能否100%反映评估目标的变化,如果不完全匹配,则需要反过来修正评估指标,使其完全匹配;下面重点从产品规模质量、健康度、用户属性等6个方面来介绍如何“设计合适的评估指标 ,错过了最佳挽留时机;对于低频产品,按月监控即可;可通过看用户的周活跃天数来判断该产品是高频还是低频,通常周活跃天数大于3,是高频产品,反之属低频产品。 这部分内容仅适用于独立app产品,因为独立app需要通过不同渠道去推广引导用户下载安装,不同渠道的用户质量差异比较大,所以需要分渠道来监控;平台资源产品不需要关注这块,如:手Q动态里面的平台资源产品。 规划完成后必须用以下四个准则来检验指标体系的合理性: 1、完备性:通过指标体系能够对产品的经营状况一目了然;比如产品现在增速如何,现状是否健康等; 2、系统性:通过指标体系能够粗略定位到数据波动的原因;
如此大的业务,如何实现高可用的一体化监控并降低云原生 Prometheus 的监控成本呢? 客户现状和痛点 经内部规划后,该游戏公司决定基于自建的 Prometheus 构建一体化监控系统。 多云监控:腾讯云 Prometheus 监控服务提供“集成中心”与多个腾讯云产品直接打通,可快速便捷的完成腾讯云产品资源监控覆盖。 当业务活动大促或上架新游戏发版时,可通过运营或服务性能汇总数据观测是否异常故障,当出现异常时可分析资源使用或服务性能质量详情分析原因。 3. 目前的监控系统支撑了数十款游戏产品线,上报峰值数万条/秒。 联系我们 若有任何问题可扫码联系云监控小助手,我们将竭诚为您服务! 、开源可视化的 Grafana 和云监控告警,可以减少用户的开发及运维成本。
云监控(CM)可收集并通过图表展示腾讯云云产品自助上报的各项监控指标和用户自定义配置上报的监控指标,以及针对指标设置告警,让您实时、精准掌控业务和各个云产品健康状况。
扫码关注云+社区
领取腾讯云代金券