系统建设完以后,以为从此就高枕无忧啦?
年轻人,不要太天真!
系统搭建完毕,快(Ku)乐(Bi)之旅才刚刚开始,IT运维世界欢迎你的加入。
IT运维的核心是确保信息系统安全、高效、平稳的运行,IT运维是IT管理非常核心和重点的部分,也是内容最多、最繁杂的部分。没有经历过系统宕机、数据异常、数据丢失、删库跑路等事故的运维,不配谈人生。
经过我多年的观察和总结,诸如技术细节理解不够、风险意识及控制不足,还有像“误操作”这种看似非常低级的错误所导致的IT事故时有发生,很常见却又很难避免,每每说起,运维小伙伴都会掬一把辛酸泪。故此我整理了近年来身边曾经发生的一些运维事故,并从中挑选出有代表性的三种类型的案例与大家分享。
一、技术错误
事件1
在VMware虚拟化平台vSphere Web Client界面针对Linux系统发送Ctrl+Alt+Del 。
事件回顾:
工程师原计划在vSphere Web Client使用Ctrl+Alt+Del组合显示出服务器的登陆界面,在发送vSphere Web Client使用Ctrl+Alt+Del没有进行系统版本的确认,误以为Linux下使用Ctrl+Alt+Del命令与Windows一样,结果导致系统重启。
事件反思:
事件2
删除RODC,选择了与实际操作目的无关的多余选项。
事件回顾:
工程师删除分支机构RODC,勾选了重置RODC上缓存的用户账户的所有密码,导致几百个AD用户的账号密码被修改为未知。
事件反思:
二、风险意识及控制不足
事件1
一个“:”的缺失导致大批量用户邮件被误删除。
事件回顾:
按照用户要求,在Exchange management shell中删除用户已经完成发送的特定主题的邮件。删除命令中-subject缺少“:”,且删除命令未限定搜索范围,导致删除了全公司不确定用户对象、不确定邮件主题、不确定邮件内容的邮件。
事件反思:
事件2
Exchange DAG服务器重启时未关注副本的状态,重启后数据库异常,导致邮箱服务中断。
事件回顾:
管理员按计划进行服务器重启,服务器为双副本的数据库,重启之前其中一个副本已经损坏无法正常切换,但未能得到管理员的重视且强制执行了重启,强制重启后原本正常的副本也无法挂载,整个数据库上的数百用户无法使用邮件,时长达到2天,最终通过数据库修复的方式将数据库恢复。
事件反思:
三、无防备的不确定性低级错误
事件1
测试数据库与生产数据库两个命令执行窗口同时连接,误将测试库删除操作执行到了生产库。
事件回顾:
管理员原计划删除测试库的数据,在操作过程中打开了两个命令执行窗口(一个正式窗口、一个测试窗口),在本地拷贝好删除命令准备切换到测试窗口执行,鼠标在经过正式窗口时,误点击鼠标右键,导致命令直接在正式窗口执行,导致误删除生产库的部分用户数据。
事件反思:
事件2
远程连接操作卡顿,拖影,工程师意图为点击“备份”按钮,却点击到了“还原”按钮。
事件回顾:
技术人员通过远程工具连接客户方电脑进行远程支持,排查备份系统备份任务失败问题,因网络连接状态不佳,鼠标操作经常卡顿、漂移、出现拖影,画面反馈延迟,但未能引起技术人员的重视,依然连续多次不断点击鼠标,在管理控制台“备份”和“还原”按钮相邻,试图点击“备份”按钮,却点击到了“还原”按钮,导致执行了数据恢复操作。
事件反思:
从每一起事故的发生我们可以看出,事故之所以发生,它与技术细节理解不够、风险意识及控制不足、操作人员安全意识不高、麻痹大意心存侥幸心理、IT运维管理有漏洞都有直接关系。
IT运维担负的责任和使命是极其重要的,各类事故发生后,我们需要不断反思,思索下次如何才能避免这种事故的发生。回顾这些IT事故,希望这些曾经出现过的事件或者事故带给我们更多启迪,让这些已然发生无法挽回的IT事故发生的更有价值,以防更多悲剧的发生。
虽然上述案例中的IT事故,客观上永远无可避免,但只要有足够的敬畏之心,将安全风险意识、运维操作谨小慎微的文化理念渗透到每个IT运维人员的心中,提高防范意识,警钟长鸣,必将可以有效减少IT事故的发生。
你的运维工作中,发生过哪些事故?留言分享一下吧~