有效的云服务报警系统

原文作者:Venkat Pothamsetty

原文地址: https://dzone.com/articles/effective-cloud-security-alerting

任何安全系统的首要组件应是它的报警系统。当异常发生时,警报通常是最快也最有效的方式来提醒你尽快采取行动。但是过于恼人的警报也同样被诟病,例如发出误报或需要繁重精细的调校来保证报警系统的正常工作。毕竟,不影响到终端用户的轻微代码漏洞并不是那类需要在深更半夜叫醒你起床立即着手解决的问题。

那么,为了实现一个能够切合实际地、关注到真正的事故的风险报警系统,我们目前有什么足够好的解决方案呢?你可以在 Threat Stack 云安全平台使用手册 这个网站中了解到搭建安全报警系统的一些非常值得尝试的代码实践内容。

躲开“噪声”:如何设置警报的严重等级

当一些不寻常的事件在你的云服务环境中发生时,你希望能被告警以便及时做出处理。但如果说**每一个**反常的事件包括持续时间非常短的宕机行为都会触发大量并且烦人的警报,反而会给你带不来任何的好处。你需要的应该是触发稳定且准确的警报,并且这些警报应当附带有异常发生的上下文信息,以便你总是能够快速地做出判断,这是否是一个真正需要采取行动的问题。换句话说,你需要一个“克制”的系统:一个能产生不多不少,刚好合适的警报数量的报警系统。

一个很多组织都会犯的错误是,他们在警报系统内添加了太多不同的警报等级。事实上,传统的安全性升级过程 中有超过7个不同的等级(P0 - P7)。尽管能把大量的警报层次分明地分类看上去很美好,但事实却是各种警报很难能如我们所愿般那么容易地归类到不同的等级中。与之相对的,这也是为什么我们推荐只分为3类不同的警报和应对等级:**严重**、**警告**或**信息**/**监听**/**记录**,分别对应不同严重程度的威胁。

这是一个简单的、分为3个等级的升级过程看上去的样子:

3级预警升级过程

远离风吹草动:消除误报

除了使用如上文中提出的3级安全性升级过程模型之外,你还需要持续地为你的系统调整“正常”的标准以避免误报警的情况出现。为了实现这一功能,你需要考虑选择一个 云安全平台,这类平台能够通过结合你的历史数据来理解、区分在你的服务器上什么事件是“正常”或“异常”的,并以此为依据动态调整新的报警基准。值得注意的是,考虑到对于一个存在大数据、物联网、员工使用自己的设备办公(BYOD)的世界来说,手动的调整报警基准是一件非常困难的事情,更何况我们面对的风险和威胁也在不断地发展变化,所以通过自动化实现这些功能是最好的选择。

通过理解你的云服务环境中的各类活动或事件的规律,你能够更加准确地判断到底什么指标或事件才是值得需要被持续不断地记录或监视的。

回到基础:优化得到更加高效的报警系统搭建流程

你需要的报警系统,要能够在需要你采取行动应对异常的时候引起你的注意,但同时,你也不能本末倒置地把所有的时间和精力都用于搭建和仔细精调每一个警报规则上。

实际上,如果你能把搭建报警系统的流程优化的越好,你就能有更多的时间去关注应对异常上。

从基础的报警规则集开始是一个不错的选择,而且这套规则集经过调整后已经用在了很多的产品上。基础的报警规则集能够根据在其他环境中预先观测到的资料来提供自动区分警报等级的功能。举个例子,基础报警规则集能在一个新节点被从网络中删除时、配置列表发生了未被授权的修改、创建了新的用户或着访问权限被修改时提醒你。此外基础的报警规则集往往提供了一定的自定义修改空间让你能够根据你的部门需要单独设置各个报警规则的启用状态和指定各个事件对应警报的严重程度,但不需要任何配置也同样能使用默认的基础框架快速的上手开始使用。

实现你自己的云服务安全报警系统

为了能确定你的组织需要的报警系统应该是什么样子,最好的方法就是先对发生在你的云环境中的各类事件有清晰且透彻的理解,并分析在你的环境中,3个不同的安全等级分别包括了哪些事件,如参考在上文中所提到的3级分类标准。同时请始终牢记,被其他公司分配为1级的警报,对你而言可能属于其它等级的警报,所以一定要结合你的云环境特点和使用情况来决定,该怎样指配警报等级才是合理的。从这里开始,选择一个能实现自动设置警报触发基准、能提供给你一个基础的规则集来缩短你的配置时间的云安全解决方案,以便能让你能将更多的时间用于解决真正的问题上。

本文的版权归 Weston Wu 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏杨建荣的学习笔记

元数据通用查询的初步设计

在建设运维平台的时候,其中的一个重中之重就是元数据建设,数据库方向的元数据设计是分为了多个维度,有主机,实例,集群,数据库等。

582
来自专栏IT大咖说

从业务变迁到研发犯难,微服务在Spring Cloud的实践之路

摘要 本次演讲是由链家网基础架构部高级研发工程师刘思贤带来基于Spring Cloud的微服务实践经验分享。 ? 回到2015年 在2015年,我受朋友的邀请加...

34110
来自专栏漫漫全栈路

R.I.P. :传统整体式架构 VS 微服务

我咨询了十几个微服务项目。有些人表示,微服务真棒(这是未来!),而有些人很沮丧(谁发明了这个废物?)

1342
来自专栏大数据钻研

年薪50W大数据工程师入门学习路线

视频方面: 推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、...

1554
来自专栏DevOps时代的专栏

腾讯:手Q研发体系与工具实践

? 本文整理自国内首届 Jenkins 用户大会演讲《让大象跳舞,手Q研发体系与工具实践》 讲师 | 潘金赤 编辑 | 白凡 讲师简介 ? 潘金赤 腾讯高级...

3848
来自专栏靠谱PM

PRD文档如何撰写

好久没有写文章了,一方面是因为最近的工作比较忙,另一方面还在不断的学习一些新知识,今天给大家聊一聊产品经理的基本功之一的需求文档,江湖俗称PRD,其实这类的文章...

1755
来自专栏PPV课数据科学社区

干货 : 聚焦于用户行为分析的数据产品。

因为工作需要,我的收藏夹里收集了很多数据相关的产品,其实加入收藏,也一直没有时间好好去研究。这几天恰好有时间翻出来逐个体验了番,顺手贴出来,大家一起研究。 受篇...

4088
来自专栏华章科技

以朋友圈为例,腾讯资深架构师揭秘鹅厂大数据平台是怎样运营的

导读:本文将从构成运营成本的主要运营资源(设备资源、带宽资源、专线资源)出发,以实际案例分别阐述精细化技术运营实施的要点。

3305
来自专栏ThoughtWorks

敏捷实践之Desk Check | TW洞见

今日洞见 文章作者来自ThoughtWorks:曲正平。图片来源于网络。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,...

3175
来自专栏java一日一条

并发用户数与TPS之间的关系

在做性能测试的时候,很多人都用并发用户数来衡量系统的性能,觉得系统能支撑的并发用户数越多,系统的性能就越好;对TPS不是非常理解,也根本不知道它们之间的关系,因...

1361

扫码关注云+社区