携程事件启发:监督和审计也是关键

  5月28日下午2点左右,针对携程网站无法打开的事件在朋友圈被刷屏。刚刚开始是各种调侃,其中要求对运维人员好一点的呼声最高、传播最广,然后是携程老板悬赏100万解决问题,到了晚间央视财经网、腾讯网、新浪网、地方电台等主流媒体都发表了该事件的看法,其中也有很多的负面信息。总体来说这次的事件对携程的负面影响还是比较大,也引发了很多行业专家的思考。从5月29日起行业内的一些安全专家就发布了一些深度文章,其中有几个非常有指导意义。

  1、阿里智锦《深入解析和反思携程宕机事件》则认为运维应该从黑盒运维走向白盒运维,是一个转型的最佳时机。

  2、老王的《运维债务的剖析与解决方案》非常深入的从流程规范、工具与平台、安全,灰度机制、意识、环境管理、数据管理、架构等多个角度来探讨,然后结合最佳实践的方法论,从各个角度提出了解决方案。

  3、另外也有很多做数据备份的同仁提到数据备份的重要性、应急响应的重要性。

  对于这些文章,笔者都一一拜读过,也得到了很多的启发,如果企业能够按照这样的方法去思考改进,相信这种灾难性事件的几率会减少很多。

  但是笔者心中始终还有一些疑问,这么大一个携程,难道其没有配置管理、变更管理等IT管理流程?难道其没有数据备份措施?安全防护措施还不够完善?没有应急响应机制?答案显然是否定的,笔者也与携程的安全团队、运维团队有过一些交流,其实携程内部也有非常多的思考,其每年也投入了巨大的资金用于IT运维和安全建设。其安全团队也经常性的组织安全沙龙、启动了漏洞奖励计划等,积极和业内安全专家进行交流互动。那为什么事故还那是发生了呢?我们能够从中还能够发现什么问题吗?

  于是笔者认真学习、分析了各方面专家的观点后,发现有个环节真被忽略了,就是“监督和审计机制”。说白了就是我们的安全管理者是否对信息系统中的IT防护措施做到可见、可控、可追溯?我们的IT管理者不防思考一下几个问题,看看自己能否在短时间内回答这些出来。

  1、防火墙、ips、WAF等安全控制策略是否有效、完整,上一次更新时间是多少?

  2、应用和系统漏洞上一次修复时间点是?

  3、有哪些业务系统和人可以调用访问数据库?其访问权限是否合理、最小化?

  4、有多少内部人员、第三方人员可以接触核心系统?他们的开发、运维过程是否可视?

  5、服务器的批量操作、高危命令执行是否可靠、经过不少于两方的确认?

  6、关键服务器、网络设备的密码什么时候修改过?

  7、数据备份的机制什么,上一次数据恢复演练是什么时间?

笔者相信有很多人是没法完整答复的,因为我们的管理者没有这样去想过,更没有定期去系统性的梳理过。甚至还有一部分管理者认为已经有了防火墙、防病毒、WAF、备份系统、审计系统等安全措施就是安全了。所以还是要有完善的“监督与审计机制”,那么怎么来建立呢?

参考PPT(人、技术、流程)方法论,我们的观点如下:

 1、人的方面:

  必须得建立独立的审计部门,实现IT建设部门、运维部门、审计部门的分离和相互制约。

  审计部门需要配备有专业的审计技术人员,至少涵盖管理制度审计、业务流程审计等方向的人才。

  审计人员也需要具备专业的IT技术,甚至审计人员技术水平要优于IT技术人员,否则审计就难以落到实处。

  领导层也要足够重视审计部门的工作,将审计成果推广应用。

2、技术方面:

  建立核心数据的访问环节审计措施,动态了解核心数据库、敏感文件等的访问人员、访问权限、流转情况。可采用专业数据库审计系统,建立敏感数据的访问行为模型,动态掌握模型的变更,发现异常。

  建立运维环节的审计防护措施,掌握运维环节的人、设备、权限、操作过程等关键环节。可采用运维审计系统,实现运维人员实名制、双因子认证、最小权限控制、运维过程审计等,让整个运维环节可控、可追溯。

  建立安全策略的有效性审计措施,可通过上述数据库审计、运维审计、流量审计等日志审计系统,及时验证防火墙等访问控制设备的策略有效性,也可以辅以安全渗透测试、模拟攻击等手段来验证。比如数据中心防火墙规定仅允许了192.168.1.100-110共10个IP地址访问数据库,那数据库审计系统上就可以设置相应的审计措施,来动态监测是否有查处这些IP地址范围的人来访问,如果有就进行实时告警。

  建立综合审计管理平台,能够收集数据库审计、运维审计、系统、安全设备、网络设备等各个方面的审计日志,然后分类进行展示,帮助审计部门全面掌握各个环节的状况。

3、流程方面:

  建立管理制度执行情况的审计,主要对公司的变更管理流程、配置管理流程、备份流程、密码修改流程、人员权限管理流程等进行执行效果的审计。因为各单位的方式不同,可能只能由人来进行操作,主要通过查看分析其流程执行。

  建立应急演练措施,需要包括网络故障、黑客攻击、数据库故障、电源故障等多个方面,而且要定期进行真实演练。这一点上证券行业做的相对较好,拥有较丰富的经验,值得大家借鉴学习。

  建立审计考核机制,包括审计人员自身绩效考核,以及审计部门如何制约IT建设部门、运维部门的机制。否则审计部门将永远不能受到重视,所有的审计措施也将失去意义。

  总的来说,监督和审计机制确实需要引起大家的足够重视,要做好审计的工作,也有几个简单的经验可以参考:

  先简后繁:先从领导认可的、重要性高的地方开始,比如数据库的审计、运维的审计、管理流程审计,然后逐步覆盖到综合日志关联审计、web业务审计、应急演练等。

 定期开启专项审计:比如每个季度开展一次审计专题活动,比如数据库访问权限审计专题、第三方外包人员管理过程审计、备份恢复有效性审计等,这样不仅能够帮助IT部门发现问题,还能够起到很好的宣传效果,有利于审计部门自身的价值呈现和团队建设。

原文发布于微信公众号 - 安恒信息(DBAPP2013)

原文发表时间:2015-06-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏芋道源码1024

女博士工程师:聊聊硅谷互联网公司的开发流程

之前很多文章或多或少已经说了一些点,现在很多国内公司也参考了一些流程,最近从始至终参与并负责了两个比较大的项目。这篇文章就系统的说一下开发始终吧。总的说来,我们...

1244
来自专栏日志易的专栏

如何用日志助推航旅支付智能运维升级

“互联网+”时代的到来对传统行业产生了深远影响,尤其是客户对服务和产品需求日益多样化的航旅业,作为其中最重要的环节之一,航旅支付业也面临着业务运维日志监管合规、...

6237
来自专栏云计算D1net

按需所取、弹性分配的云计算

云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件,服务),这些资源...

5284
来自专栏企鹅号快讯

关键词搜索工具分享

Wordtracker关键词搜索工具分享 打开网站,大家可以看到这个界面,直接在搜索框输入产品关键词,可以看到一些关键词,但是关键词的数量并不多。 ? 需要看到...

22810
来自专栏智能计算时代

微软保护物联网的新颖方法

Sopris项目希望创建一套可以保护硬件和通信的安全层,并且可以刷新受影响的设备。 ? 事物部署工业互联网面临的主要问题之一是常年问题:安全。当您在组织周围部署...

2745
来自专栏罗超频道

360移动搜索:周鸿祎玩微创新

6月3日360移动搜索App终于出世了。相关报道显示,360此前在移动搜索领域并非毫无作为,而是低调地进行广泛的布局:360浏览器、手机助手、安全桌面等产品都内...

2957
来自专栏沃趣科技

从运管到云管,从离散走向集约

刚刚过去的火热七夕节,也恰巧是云计算诞生十周年纪念日。十年前的今天,Google创始人埃里克·施密特在公司年度战略大会上首次公开提出“Cloud Computi...

4186
来自专栏CSDN技术头条

SDCC 2015架构专场札记:一线互联网公司的架构实践

【编者按】11月21日,为期三天的SDCC2015中国软件开发者大会成功闭幕,主办方总计邀请了95余位演讲嘉宾,为参会者奉献了10个主题演讲,9大技术专场论坛(...

2177
来自专栏云计算D1net

开始云征程:迁移计划要先行

当把应用迁往云时,我们不能只是把应用往云中一放就奢求它们能够在其中正常运行了。制定一个完备的迁移计划可确保您的应用运行表现良好,并具有较高的成本效益。 云迁移并...

3465
来自专栏CDA数据分析师

如何在数据农耕时代做个好“数农”?说说数据收集埋点这件事儿

本文由CDA作者库成员王安原创,并授权发布 原文来自公众号数据化决策(Data_Driven_Decision)。 CDA作者库凝聚原创力量,只做更有价值的分享...

21610

扫码关注云+社区

领取腾讯云代金券