据微博网友大佬坊间八卦爆料,顺丰科技数据中心的一位工程师邓某,因误删生产数据库,导致运营监管监控系统发生故障,服务功能无法使用并持续 590 分钟。最终公司决定辞退工程师邓某,并在顺丰内网通报。
网友爆出了顺丰内部的通报邮件截图,通过这封邮件内容,我们来看看这次事故暴露了顺丰运维系统的哪些弊病?
首先,生产数据库是公司重要信息中心,属于高级危险操作,必然需要一般运维工作人员拥有删除数据库的权限?作为专业IT人员应该都清楚,运维权限分工细致、高危操作权限分配是保障数据安全的必备管理机制。显然顺丰科技在管理上非常不规范,权限没有分离,删除流程没有进行高权限审核认证。
其次,本次事故造成了监管运营系统功能无法使用并持续了590分钟。这确实是大事故了,590分钟无法运行,意味着顺丰科技花费了将近10个小时做数据恢复。这么长的时间,IT部门若是调用异地灾备数据,要花费10个小时吗?是前提告警不及时,还是事中纠察迟缓?无论如何,这次事故影射出顺丰科技的IT管理上的不足,灾备系统也并不完善。
再者,数据库直接暴露在运维人员面前,数据中心安全隐患更甚。与此同时,删除操作一步到位,既没有脚本执行,也没有报备流程,甚至没有协同操作,可见数据库并没有双因子、多因子认证机制。
综上可见,虽然工程师操作失误有着不可推卸的责任,自然要承担后果,这也算不上是背锅侠,应该承担自己的责任。但是更大的问题是顺丰IT系统管理上的弊端,涉及权限分级、事前告警、事中操作、事后回溯、容灾备份、应急预案等多个方面。
其实这一系列的运维管理都是可以通过有效的第三方管理平台做到更可靠的预防和监管的。行云管家是专为各个上云企业精心定制的云计算全生命周期管理平台,行云管家的功能覆盖从创建云、日常运维、安全审计、成本控制等,众多企业的CIO们和多达10万名运维工程师们正通过行云管家对公有云、私有云和混合云等进行全流程管理。
第1步,通过行云管家创建或接入公有云、私有云主机,随后使用行云管家工单系统交付至运维人员或者开发人员。
第2步,使用行云管家进行日常运维,包括远程连接、文件传输备份、自动化运维等。
第3步,通过行云堡垒机进行日常运维审计,事前授权、事中控制、事后审计,确保所有运维行为均可定位至自然人,降低操作风险,避免运维事故的发生。
第4步,通过行云管家进行统一监控,主机、网络、CDN、OSS,全方位可视化,微信、邮件、短信告警,精确反映资源的实时健康状况。
第5步,通过行云管家进行成本结构分析,为企业提供成本优化建议。同时,还能针对后付费支出提供预警,给出CIO想要的详细成本支出统计报表。
第6步,通过行云管家为企业云上资源进行全方位安全保障。行云管家内网访问助手,确保了运维安全;云堡垒机则保障了运维操作全过程的安全;云备份与时光机的作用是保障数据资源的安全;DDoS预警与抵御能够确保企业服务的网络安全。
领取专属 10元无门槛券
私享最新 技术干货