学习
实践
活动
专区
工具
TVP
写文章

【TKE】 配置事件告警实践

操作场景对集群中比较关注的事件信息设置告警,以便快速感知该事件发生情况。操作步骤事件告警依赖 CLS 日志告警功能,所以需要先开启集群事件存储,参考 开启事件存储。2. 选择导航栏左侧运维中心 > 日志管理 > 事件日志,进入“事件检索”页面。通过事件仪表盘检索已有的事件样例,参考 全局检索 。 比如我们要想告警原因为 "NotTriggerScaleUp"(Pod Pending 没有触发节点池扩容事件) 的事件数量告警 ,我们可以在 交互模式 下, 添加筛选条件 event.reason 为 在 CLS 告警策略 界面设置告警配置。根据第 2 步生成的查询语句创建告警配置,如下图:图片触发条件语法参考:触发条件语法。4. 根据帮助文档配置告警对象相关信息后保存,如下图:图片上述第3、4步配置详情和告警测试请参考 CLS 监控告警文档。

18562

事件总线能力升级,联动云上事件告警

目前,EventBridge 正式支持事件告警能力,仅需几步配置,即可实现业务告警的自动推送。 01. 方案简介 基于 EventBridge 事件总线的告警推送链路如下,业务方主动上报告警事件给到 EventBridge,用户通过配置事件的匹配规则,完成告警事件的筛选,并通过不同投递目标的配置完成消息的进一步处理 告警规则配置 以 CVM 告警配置为例,您可以选择指定的事件告警类型,也可以选择全部告警事件,从而筛选具体的告警事件。 3. 日志存储 将您的告警事件投递至默认的事件总线日志集,方便您对已投递的告警事件随时进行追溯。 03. 能力拓展 如果您需要对告警事件进行进一步分析和处理,可以将事件投递至云函数,在函数代码里实现相关逻辑设计,如下图,基于云函数的能力,您可以实现告警消息处理架构的更多能力拓展,例如: 提取告警事件详情,组织消息文案

31650
  • 广告
    关闭

    游戏安全场景解决方案

    基于腾讯20余年的防护技术积累,一站式解决游戏服务端、客户端安全问题

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    TKEEKS多集群事件日志如何采集并配置事件告警

    对于warn级别的异常报错事件,不能告警提示。 为了能更好的检索日志,并配置事件日志告警,下面我们通过阿里的开源组件kube-eventer来实现对tke/eks多集群的事件日志采集。 并配置下事件告警发送到钉钉。 选项:文本和降价) sign - 签名密钥(如果钉钉使用签名的安全机制,可以通过该字段传入密钥。) ,表示只发送Warning级别的事件告警告警格式为markdown,同时配置下label,第一个label为集群id,第二个是对应机器人设置的关键字。 钉钉查看告警 从上面的检索看,pod的事件日志是一条Warning类型,这里到钉钉群里看下,是否有这条事件告警,如果有收到告警,则说明告警配置正常 image.png 告警群里收到了事件告警,说明集群的告警配置正常

    505100

    威胁事件告警分析技巧及处置(二)

    START 0x01前言 由于近几年信息安全人员紧缺,面临HW急需安全人员的竞赛中,许多安全厂商降低招聘要求,招收大量安全工作经验较少的人员参与HW当中,由于缺乏相应的工作经验,面对攻击团队的频繁入侵, 0x02期望效果 看完本文后,您能学到: >常见告警攻击特征识别 > 低危告警攻击事件忽略 > 研判告警攻击是否误报 > 复杂告警攻击Pcap取证 > 验证告警攻击是否成功 0x03webshell后门特征 nologin games:x:12:100:games:/usr/games:/sbin/nologin ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin 基于攻击告警和行为审计日志判断攻击成功与否 例如产生了暴力破解告警,同时发现相关的登录成功告警,则攻击成功。 基于不同告警日志的关联判断攻击成功与否。 例如产生了永恒之蓝漏洞利用的告警,同时发现漏洞利用成功的反连行为的告警,则说明永恒之蓝漏洞利用成功;或者产生了redis未授权写ssh密钥的行为,且后面有登录ssh的行为也基本可判断为攻击成功,但是具体与否还需要登录服务器进行查看

    1.5K20

    威胁事件告警分析技巧及处置(一)

    START 0x01前言 由于近几年信息安全人员紧缺,面临HW急需安全人员的竞赛中,许多安全厂商降低招聘要求,招收大量安全工作经验较少的人员参与HW当中,由于缺乏相应的工作经验,面对攻击团队的频繁入侵, 0x02期望效果 看完本文后,您能学到: >常见告警攻击特征识别 > 低危告警攻击事件忽略 > 研判告警攻击是否误报 > 复杂告警攻击Pcap取证 > 验证告警攻击是否成功 0x03通用攻击关键特征 在设备上产生的告警 通过这些字段我们可以进行事件的研判,但是就我个人而言,不必执着于告警名称,如果这些字段中包含了一些通用的攻击特征,那么我可判断为是真实攻击,然后再进行下一步确定是否是自己人员进行安全测试,是否需要溯源等下一步的工作计划 shadow/ c:\boot.ini/ C:/Windows/system.ini、/windows/win.ini ../../../../../ 若是只有一个且后面是图片类型 pdf类型那需结合其他事件进行综合判断 0x07PHP远程代码执行攻击特征 常见安全漏洞对应攻击特征——PHP代码执行包含但不限于以下这些: <?php eval($_POST[xxx])?

    1.7K41

    安全事件SOP:基于实践的安全事件简述

    就企业安全建设和安全运营而言,可以细分为安全违规事件,风险操作违规、账号口令违规、私搭乱建违规等;网络攻击事件,扫描行为、IOC告警、邮件钓鱼账号疑似被盗等;接收漏洞事件,SRC接收漏洞、CNVD接收漏洞 1.告警响应 当收到告警信息时,一线安全运营人员需要对信息进行判断,按照相对应的SOP进行执行。 但告警信息的来源非常广,可能是公司内外部人员反馈、各类Sensor告警信息、上级监管单位通报、安全应急响应中心(SRC)接收等渠道,所有安全事件都先由一线安全运营人员处置,处置过程中发现问题或拿不准就上升到二线 无论是NTA中的弱口令事件告警还是基于HIDS发现的弱口令,都需要进一步验证是否真实存在、是否从外部可利用并造成危害。 溯源取证:从各安全设备的告警、日志、流量进行分析,摸清攻击者的来龙去脉,还原攻击链;分析攻击者留下的样本、后门文件,进行内部横向排查和清除; 对外公关:当安全事件即将在特殊时期发生或已经发生时,且在外界产生不良影响

    12210

    云监控「事件告警」相关功能即将下线通知。

    云监控「事件告警」相关功能将于2021年12月31日正式下线,相关能力将由「事件总线」承载。 本次变更仅涉及云监控事件告警部分功能,其它能力保持不变。迁移到事件总线后与现有事件告警体验一致。 为保证您的事件相关服务可以正常使用,您可开通「事件总线」。点击“阅读原文”参考「一键迁移文档」,可将云监控侧存量告警策略与推送目标一键迁移至事件总线。同时,请您手动在事件总线启用事件告警规则。 事件总线产品在原有功能上新增规则匹配、自定义事件集、多目标投递等特性。想要了解更多关于「事件总线」产品,可扫描下方二维码查看产品文档。 扫码了解事件总线 感谢您对腾讯云的信赖与支持!

    24030

    安全攻防】安全告警分析处置与模型开发思考

    前言 在企业安全运营中,安全运营中心(SOC)部署了各种安全设备,收集到了海量安全数据,并针对这些数据开发出各种检测模型,但随之而来的问题就是: 如何高效地对安全告警进行分析和处置 如何保证当前的模型可以覆盖检测到所有攻击 ,同时保持最低的误报 如何深入分析挖掘数据的潜在价值 一 安全告警的意义 首先想探讨的是,产生和分析安全告警能给我们带来什么? 总结起来,安全告警分析能做到: 1 识别已成功的攻击行为 安全告警的核心目的,也是安全设备的初衷,如: 系统存在wordpress漏洞被命令执行成功 攻击者正在内网执行端口扫描、数据外带动作 xx主机被内置挖矿病毒 在5天之内,每小时都触发大约650条告警,数量巨大、持续性强的告警只有正常业务才有可能触发,攻击者很难做到24小时在线,持续大量地触发安全设备告警而不被发现。 告警载荷规律性明显。 三 告警研判 对安全告警进行分析调查后,最终需对安全告警进行定性,按危害程序从低到高排序,告警最终可粗略分为以下几类: 1 正常行为 判定为正常业务行为导致的误报,包含正常的内部漏洞扫描动作,这些基本可认为是

    19930

    安全告警分析之道:四】扫描识别(上)

    引言 扫描行为往往会触发大量安全告警,这些告警会干扰运营人员对“高危告警”的查找,这使得扫描识别成为安全运营的一大需求。而扫描行为看似简单,但是在告警数据中却体现出复杂的攻击模式,检测起来并不容易。 《扫描识别》分为上、下两篇文章,上篇主要介绍扫描行为,包括类型、特征、检测所需考虑的因素、可能的干扰行为等,下篇依据扫描行为的特点,介绍基于安全告警数据的扫描检测方法。 一、为什么要进行扫描识别 在系列文章《数据透视篇》中我们提到,安全设备每天产生的告警数据在千万量级,虽然经过一定的过滤操作,可以过滤约90%的误报(详见《数据透视篇》),剩余告警仍然在百万量级,仍然达不到 一般来讲,上述扫描行为都在在安全设备中留下大量的告警信息,将这些扫描行为找出、甚至细化到各种不同的子类别中,将提升安全运营的效率。 如图1所示,百度爬虫每天会触发大量安全设备的告警,且告警类型众多,图2为告警的payload样例,可以明显看出“User-Agent”字段中包含有“Baiduspider”的标志。

    46130

    安全告警分析之道:三】异常处理篇

    二、异常的构成 2.1统计数据 在企业内部网络中,业务复杂、用户行为复杂,这些复杂的网络活动造成大量所谓的“异常”事件,其实何为“异常”在安全领域往往很难界定,异常事件的定义往往随场景、业务甚至人的理解而发生变化 ,在此,我们不对“异常”的定义做深究,仅以最直观的方式来理解异常:偏离正常活动的事件为异常事件。 图1、告警、异常、攻击的关系 我们以安全告警数据来做进一步阐述,在系列文章第一篇《安全告警数据分析之道:一】数据透视篇》中,我们依据安全运营中告警的严重程度,将告警分为如下6类(比原文中扩充了2类): 图2、红蓝对抗数据告警标签分布 对应以上数据和之前我们对异常的理解(偏离正常活动的事件为异常事件),标签1以外的告警均为异常告警,如果去除标签0这些无法分类的告警,异常告警的总数占总告警数量为8%左右, 往期回顾 【安全告警数据分析之道:一】数据透视篇 【安全告警数据分析之道:二】数据过滤篇 关于天枢实验室 天枢实验室聚焦安全数据、AI攻防等方面研究,以期在“数据智能”领域获得突破。

    1.2K30

    AIOps异常检测(二):基于告警事件的实时故障预测

    本文主要介绍一种实时故障预测的文章《Real-Time Incident Prediction for Online Service Systems》,使用告警数据来预测未来一段时间是否会发生真实故障。 ; 2)通过多实例学习(multi-instance learning)来区分有用告警和噪音告警; 3)基于特征工程提取出的特征,使用XGBoost进行异常识别; 4)将故障预测结果反馈给用户,并采用LIME 特征提取 文本特征:采用LDA(Latent Dirichlet Allocation)来提取文本特征; 统计特征:告警量【总告警量、不同严重程度的告警量、不同类型(应用、数据库、内存、中间件、网络、硬件等 )的告警量】、窗口时间【hour of the day、工作日or周末、day of the week、是否business hour等等】、告警的平均间隔时间【窗口内的告警是否频繁】 多实例学习过滤噪音告警 Over-sampling TEchnique)平衡正负样本,再使用XGBoost进行训练 LIME模型可解释性 报告实例如下,第二部分的特征贡献是有LIME中的线性模型计算的权重,越重要的特征可能与预测事件的根本原因越相关

    92440

    CircleCI 20230104 安全事件报告

    今天,我们想与您分享发生的事情、我们学到的知识以及我们未来不断改善安全态势的计划。 我们要感谢我们的客户对于重置密钥的关注,并对此次事件可能对您的工作造成的任何干扰表示歉意。 • 可能有助于您的团队进行内部调查的详细信息 • 我们从这次事件中学到了什么以及我们下一步将做什么 • 关于员工责任与系统保障措施的说明 • 安全最佳实践 • 结语 发生了什么? 我们将继续采取其他措施,包括扩大告警范围、减少会话信任、添加额外的身份验证因素以及执行更定期的访问轮换。最后,我们将使我们的系统权限更加短暂,严格限制从类似事件中获得的任何令牌的目标值。 虽然一名员工的笔记本电脑通过这种复杂的攻击被利用,但安全事件是系统故障。作为一个组织,我们的责任是建立多层防护措施来抵御所有攻击向量。 结语 我们知道没有合适的时间来响应关键系统上的安全事件,我们要衷心感谢所有在事件发生后立即采取行动的客户。正是通过这种集体行动,我们将能够更有力地应对未来的威胁。

    10920

    AIOps质量#Incident#检测:基于告警事件的实时故障预测

    ; 2)通过多实例学习(multi-instance learning)来区分有用告警和噪音告警; 3)基于特征工程提取出的特征,使用XGBoost进行异常识别; 4)将故障预测结果反馈给用户,并采用LIME 特征提取 文本特征:采用LDA(Latent Dirichlet Allocation)来提取文本特征; 统计特征:告警量【总告警量、不同严重程度的告警量、不同类型(应用、数据库、内存、中间件、网络、硬件等 )的告警量】、窗口时间【hour of the day、工作日or周末、day of the week、是否business hour等等】、告警的平均间隔时间【窗口内的告警是否频繁】 多实例学习过滤噪音告警 eWarn从每个实例窗口中提取特征,再将观测窗口内的多实例窗口特征聚合成包,如果实例窗口内没有太多有用的告警,聚合过程中会给其分配更低的权重。 Over-sampling TEchnique)平衡正负样本,再使用XGBoost进行训练 LIME模型可解释性 报告实例如下,第二部分的特征贡献是有LIME中的线性模型计算的权重,越重要的特征可能与预测事件的根本原因越相关

    12710

    安全告警数据分析之道:二】数据过滤篇

    引言 在系列文章《数据透视篇》中我们提到,安全设备每天所产生的告警量非常庞大,常常达到上千万量级,而绝大部分的告警都是由正常流量造成的,本文为系列文章的第二篇,浅谈这些误报的形成原因,并且阐述过滤这些误报的方法 需要特别说明的是,在这里,我们需要对“正常流量”和“误报”做出一定的区分,“误报”指的是安全设备的告警类型与实际payload对不上,即由于安全设备的误判而产生的告警;“正常流量”是一个更大的范围,不仅包含 在5天之内,每小时都触发大约650条告警,数量巨大、持续性强的告警只有正常业务才有可能触发,攻击者很难做到24小时在线,持续大量地触发安全设备告警而不被发现。 告警载荷规律性明显。 往期回顾(与该文章相关的往期公众号文章) 【安全告警数据分析之道:一】数据透视篇 关于天枢实验室 天枢实验室聚焦安全数据、AI攻防等方面研究,以期在“数据智能”领域获得突破。 包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

    53520

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 安全运营中心

      安全运营中心

      安全运营中心(SOC)是腾讯云原生的统一安全运营与管理平台,提供资产自动化盘点、互联网攻击面测绘、云安全配置风险检查、合规风险评估、流量威胁感知、泄漏监测、日志审计与检索调查、安全编排与自动化响应及安全可视等能力,帮助云上用户实现事前安全预防,事中事件监测与威胁检测,事后响应处置的一站式、可视化、自动化的云上安全运营管理。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券