展开

关键词

选型宝访谈:如何通过AI 全面提升运维效率?AIOps实战案例分享

李诚:AIOps的应用场景非广泛,能够切中传统运维中的大量痛点,比如:检测、故障预测、关联分析、根因分析、抑制、故障自动处理等等。 李维良:智慧怎么理解AIOps的概念? 智慧从2019年开始服务这家客户,并为其建立了业务运营实时监控分析平台,实现了业务、业务基线预、运营监控分析、日志实时查询等目标。 这些应用系统每天生海量日志数据和信息,对日志文数据的处理分析时效性差,效率低,IT的整体运维效率已经成为制约企业数字化发展的障碍。 用户目前有5套监控系统,并且每个系统会独立的通知,当出现大规模故障时,运维人员会同时收到来自各个系统的大量通知,对正的工作造成了极大困扰。 第三阶段是智能运维,构建智能化的IT运营管控体系,持续提升业务值。通过智能监测、根因分析、自动处置、故障预测,极大提升IT运维效率、保障业务连续、减少业务损失。

46620

SCF:业务功能

在使用的时候,我们可能会需要一些业务,虽然腾讯已经提供了监控功能,但是毕竟是针对一个通用的,并不是“定制化”的,那么我们如何做一个定制化的系统呢? 本文将会通过腾讯API对Kafka消息积压数量进行监控(在监控部分是不提供这个指标的),当超过阈值,通过Email以及企业微信和短信等进行业务API对数据进行获取 说到API数据获取部分,这里就非推荐大家一定要用Explorer,这个可以帮我我们节省很多力气,本文也是通过Explorer来进行鉴权和监控数据获取的工作: 鉴权部分(已经去掉了我的 是一个非有趣,且非值的,我之前做了一个项目,由于临时需要有一个活动,需要增加一个活动模块,但是不想修改源代码,就通过腾讯的SCF对数据库进行增删改查,增加了点逻辑代码,与API网关结合,很快上线 其实在生活中,灵活运用一个或者几个结合使用,是非有趣的,同时正确应用一款,也会让你的工作事半功倍,本文主要通过API对监控数据进行获取,获取到Kafka数据积压量,进行一个逻辑处理,然后调用了发送邮件的方法

50261
  • 广告
    关闭

    腾讯云精选爆品盛惠抢购

    腾讯云精选爆款云服务器限时体验20元起,云数据库19.9元/年起,还有更多热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    RTSPGB28181HIKSDK大华SDK协议安防视频平台EasyCVR新增

    监控系统实时地为用户提供了精准的数据,用户可以通过应用这些数据,提取有用信息并应用于业务。这是一个包含了数据生到数据消费的闭环,通过这个活动,数据得以被合理使用继而变现值。 为了解决以上问题,确保用户可以及时获悉相关信息,进而采取合适的应对措施,“服务”应运而生。 “服务”能极大的解放用户的注意力,通过对监控数据设定规则,管理员可以掌握数据的健康状况。 我们的视频上平台EasyCVR也新增了设备的功能,和EasyGBS国标平台一样都是通过接受国标message中的alarm消息,然后通过接口展示,这样我们就能及时发现设备及监控画面的。 视频上平台EasyCVR的功能列表如下图: 列表项包括:设备名称、设备ID、通道ID、监控对象 – 根据资源类型进行添加、级别(一级、二级、三级和四级); 方式:根据监控设置展示不同的方式 、流量统计、密度检测、视频检测和快速移动时间:最近一次的时间; 操作:支持规的删除、可以在配置中心里面添加白名单以接收设备的信息,不添加白名单则不接收信息;支持频率设置及快照保留时间

    39830

    EventBridge 最佳实践场景:流计算 Oceanus 消息实时推送

    作者:腾讯函数团队经理 April 导语 本文演示了如何捕获流计算 Oceanus (Flink) 集群状态变更,并通过事件总线(EventBridge)发送到企业微信或钉钉、飞书客户端。 背景介绍 监控与系统对于业务生环境来说是不可或缺的,一旦有故障发生,需要有完善的监控链路,保证消息可以实时完成推送并进行处理。 推送到钉钉、飞书可通过函数中调用对应接口或参考文章《基于千帆 iPass 完成事件到 IM 服务的推送》中的方式来实现。 架构设计 整体架构设计如下图,从图中可以看出,当 Oceanus 集群发生状态变更时(如实例,实例隔离,实例下线等), Oceanus 系统会事件并主动推送给 EB,经过 EB 绑定的规则筛选后 TaskManager Pod 退出 TaskManager Full GC 过久 配置推送目标 可以自由选择投递目标,此处以消息推送和函数两个投递目标为例。

    11010

    运维提效利器——事件总线「链路追踪功能」正式发布

    目前,事件总线已正式支持链路追踪功能,完成每条事件从生到消费的完整日志上,提升可观测性,方便用户进行业务的运维。 功能值 快速定位:在实际事件处理链路中,如果事件目标未接收到事件或与预期不符,可以通过日志查看事件的匹配、投递情况,方便定位原因。 事件记录:对于服务事件集收到的事件,配置相关规则后,会自动上对应事件日志,方便用户查询事件信息,并进行相应处理。 操作简洁:事件总线控制台集成查询能力,可以根据实际业务情况,自定义上内容,并根据指定字段进行快速查询,提升可观测性。 详细配置流程和上信息,请参考腾讯官方文档:https://cloud.tencent.com/document/product/1359/72371 欢迎扫描下方二维码,免费咨询解决方案

    8920

    EventBridge 最佳实践场景:流计算 Oceanus 消息实时推送

    作者:腾讯函数团队经理April 导语|本文演示了如何捕获流计算 Oceanus (Flink) 集群状态变更,并通过事件总线(EventBridge)发送到企业微信或钉钉、飞书客户端。 背景介绍 监控与系统对于业务生环境来说是不可或缺的,一旦有故障发生,需要有完善的监控链路,保证消息可以实时完成推送并进行处理。 推送到钉钉、飞书可通过函数中调用对应接口或参考文章《基于千帆 iPass 完成事件到 IM 服务的推送》[3] 中的方式来实现。 架构设计 整体架构设计如下图,从图中可以看出,当 Oceanus 集群发生状态变更时(如实例,实例隔离,实例下线等), Oceanus 系统会事件并主动推送给 EB,经过 EB 绑定的规则筛选后 配置完成后,即可在腾讯事件总线控制台,完成规则的查看与管理。 短信效果 欢迎识别下方二维码,进入「流计算 Oceanus」技术交流群,和经理、技术爱好者一起探讨!

    9130

    安全 | 温馨提示:近期上安全事件加剧,请各位看做好上安全防护备份监控!

    解决方案 腾讯 XDR 威胁运营方案将以安全运营中心为核心平台,采集并整合分析主机安全、防火墙、WEB 应用防火墙各类与日志,通过定性、事件调查、威胁情分析等手段对进行集中分析,筛选高 ,针对失陷生成事件回溯整个攻击过程。 XDR 威胁运营 将采集主机安全、防火墙、WEB 应用防火墙威胁与日志,并使用腾讯威胁情、自有安全知识库对所有数据进行自动化分析与调查,为客户提供集中化的威胁检测、调查、处置能力。 image.png 互联网流量入侵监测 针对互联网流量进行入侵监测,帮助客户实现互联网对内攻击及内部资向互联网外联行为的检测,包括漏洞利用攻击、命令注入攻击、暴力破解攻击、僵尸网络主机、主机挖矿行为 image.png XDR 威胁运营 将采集主机安全、防火墙、WEB 应用防火墙威胁与日志,并使用腾讯威胁情、自有安全知识库对所有数据进行自动化分析与调查,为客户提供集中化的威胁检测、调查、处置能力

    14441

    频发:记ADG备库日志应用延迟的一次故障处理-和恩墨技术通讯精选

    各位亲爱的用户/读者朋友们: 为了及时共享行业案例,通共性问题,达成知识共享和提前预防,我们整理和编辑了《和恩墨技术通讯》(7月刊),通过对过去一段时间的知识回顾和故障归纳,以期提供有值的信息供大家参考 同时,我们也希望能够将热点事件、新的特性及其他有值的信息聚集起来,为您提供具有前瞻性的支持信息,保持对于当前最新的数据库新闻和事件的了解,其中包括重要数据库发布、、更新、新版本、补丁等。 经验:如何应对DNS服务器导致监听故障 经验:Linux大内存下未设置大页引发故障 问题:开启Audit审计偶遇buffer busy waits等待 问题:主机内存太大致redo buffer 检查DG提示,发现无error项,且状态为valid,说明无传输性。 ? 问题分析 由于DG相关的参数配置和进程均正,无错信息,检查主库的日志生量,发现主库日志在一定时间内生了较多的归档量,说明主库业务发生了变化。 ?

    62020

    邹建平:智能化大数据平台打造实践

    ,是数据的核心值之一,但是当前上大数据在运维上面临着的几大挑战。 如果仍然采用传统的阈值方式,例如固定值或波动率,一方面每个上指标设置阈值比较费时费力,经出现漏设置的情况;另一方面,即使设置了阈值,如果设置过低,会导致误,而过多误会让用户对这些视而不见 ,在这之后生的事件会在规则引擎进行二次处理,这里的规则引擎我们是采用CEP模块来实现的,可以对一些事件进行更复杂的处理逻辑:例如通事件会触发模块,这时我们会调用外部函数接口,经过对事件的关联 ;另一个流进入智能模块,在这里会先过滤掉部分不需要智能的数据,然后通过keyby算子做多路分流,在每个流里,会先进行window划分滑动窗口,然后对每个滑动窗口,来做预测,最终输出的事件继续流入规则 总的来说,我们会从四个方向进一步加强和优化:首先是场景化,我们需要挖掘更多提升大数据平台能力的点,例如后如何继续进行根因分析,进而能够正确地自动触发故障恢复流程;接着是化,目前已经在内部使用的一些和调优

    1.3K50

    原生时代下的端到端一体化监控解决方案

    [点击查看大图] [点击查看大图] 应用性能观测 APM 功能:APM 可自动采集生成业务链路拓扑图、上相关性能质量指标(吞吐量、耗时、错误等)、服务、问题链路追踪分析、监控等。 [点击查看大图] [点击查看大图]  监控 CM 功能:监控也叫腾讯基础监控,由如redis、mysql、网络、clb等主动接入上相关核心指标数据,然后以实例的口径将相关指标进行展示 定位:面向业务依赖的IAAS、PAAS等资源层监控,是客户做质量监控交互的。 关键:监控接入、指标展示、监控以及触达操作等。 [点击查看大图] 场景二:监控。已知场景可主动配置策略,当有时直接接收并处理的问题。 [点击查看大图] 二、故障定位和复查 场景一:前端。前端问题定位分析与处理。 有效触达或处理:这样上收集的数据需被有效使用,生的需能有效触达或处理; 5.

    20830

    大国点名,监控护航

    通知:指标以及相关事件数据,如机器重启、机器 ping 不可达等通知用户; 角色参与:运维、研发、客户和合作方等不同人员的多角色监控共享; 数据消费:支持业务基于相关指标数据做巡检。 基础资源数据和业务数据上监控,使用监控 Dashboard 可配置出各个视角的监控大屏; 通知:客户通过监控策略可自助订阅关心的事件信息以及核心指标的信息; 角色参与:腾讯支持子账号方式管理账号权限 基础监控和业务监控通过使用监控成熟的监控方案,实现了基础的监控和灵活的业务数据上,将全量数据统一展示在 Dashboard 大屏,以及基于大数据处理的基础和业务列表 自助订阅关心的腾讯相关事件消息,便于客户更好维护好服务稳定性。 ? 合理的使用监控完成了七人普的监控护航,通过的接收,及时发现并处理了活动中的问题。

    18230

    五月数据库技术通讯丨Oracle 12c因新特性引发Library Cache Lock等待

    每月关注:35页数据库技术干货,汇总一个月数据库行业热点事件、新的特性,包括重要数据库发布、、更新、新版本、补丁等。 亲爱的读者朋友: 为了及时共享行业案例,通知共性问题,达成共享和提前预防,以及共同学习国数据库内容,我们整理和编辑了《和恩墨技术通讯》,通过对过去一段时间的知识回顾,故障归纳,以期提供有值的信息供大家参考 同时,我们也希望能够将热点事件、新的特性及其他有值的信息聚集起来,为您提供具有前瞻性的支持信息,保持对于当前最新的数据库新闻和事件的了解,其中包括重要数据库发布、、更新、新版本、补丁等,以及对国数据库的一些突出能力的总结 示:Oracle 12c 因新特性引发library cache lock等待——李晴晴 ---- library cache lock等待事件是Oracle数据库较为见的等待事件之一,在之前的几次月刊中 · 问题描述 某生库收到信息,提示数据库出现大量等待。 ?

    23320

    【日志服务CLS】腾讯日志服务CLS尝鲜

    【导读】了解腾讯的同学肯定知道,腾讯类型非的丰富,其中,日志服务CLS是非基础的底层服务之一。同样,任何它的日志功能应该也是最基础的功能。 检索分析应该是日志统计最重要的用途之一,我们可以根据需要查找对应的日志信息,比如发生服务时,我们想查看当时发生了什么状况,就是根据错信息或者时间段信息检索对应的日志记录,可以很大程度上提升排查问题的效率 投递任务管理功能就是把旧的日志记录保存到腾讯的COS对象存储服务中,你可能不容易理解,为什么会有这个功能。因为,随着服务周期的变长,特别是用户非多的服务,很容易生大量的日志记录。 监控 ? 监控模块应该是日志服务最用的功能之一,当发生服务时,可以及时通知我们进行处理。这个模块支持策略设置、历史记录查询、通知模版设置三个子功能。 ? 同时,还能够显示Top10的记录,让我们有针对性的分析主要矛盾问题。 ? 通知模版的作用是设定服务处罚的通知机制,诉运维人员当前服务发生了

    55932

    【近期功能更新】无缝体验免费 Demo!

    支持数据库指标和指标,当这些指标发生时,及时通知您采取措施。 包括数据库调用次数、数据库响应时间、数据库错误率和类型次数。 [点击查看大图] 3. 为了方便用户在 CDN 控制台直接进行 JS、CSS、图片等资源的性能查看, RUM 和 CDN 进行深度合作,并且为每个接入的应用提供每天50万的免费上额度,助力中小企业提升网站和小程序的用户体验 融合后的体验有如下变化: 基础指标免费 支持细粒度调整基础指标的采集 支持跨地域/跨 VPC 关联容器集群 支持集成弹性容器集群(EKS)和边缘容器集群(TKE Edge) 能力提升 采集端自动扩缩容 Grafana 服务 由原来 Prometheus 内嵌入的 Grafana 升级为独立的托管 Grafana 服务,功能更加强大,同一个 Grafana 支持绑定多个 Prometheus 实例,支持快速集成基础监控 上线格计算器,方便您预估使用 Prometheus 监控服务的成本。 您可直接使用 TMP 格计算器,查看您当前使用需求下的组合格,估算资源成本。

    11730

    --设置之动态阈值最佳实践

    暂且用这一句来概括今天要跟大家介绍的监控新功能 -- 动态阈值:在不需要用户设定阈值的情况下,为您智能地检测指标并发送。文章将会带大家认识动态阈值,以及它为用户带来的值以及实际应用。 静态阈值 vs 动态阈值 腾讯监控提供指标存储,监控,展示的一体式解决方案。目前指标监控主要分类指标监控和自定义指标监控。而无论是哪种 ,目前都只能支持静态阈值检测。 静态阈值是指用户根据业务经验和曲线形态,配置固定的阈值(如 CPU 使用率 大于 90%)。 PS: 在监控类型上,监控目前支持监控和自定义监控两种类型。 七人普作为一个国家级项目, 需要很多的配合使用,包括:CVM, CLS, CDB,协议监控,CDN 等等。 同时,为了监控服务的稳定和使用情况,项目方还有很多自定义上的业务指标,例如:服务的请求时间,错误统计,在线人数,等等。因此七人普项目同时使用了指标和自定义指标监控。

    2.1K41

    扫码关注云+社区

    领取腾讯云代金券