前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >无把握不动作!那些年,我们经历的IT运维事故

无把握不动作!那些年,我们经历的IT运维事故

作者头像
嘉为蓝鲸
发布2018-12-21 11:54:11
1.2K0
发布2018-12-21 11:54:11
举报

系统建设完以后,以为从此就高枕无忧啦?

年轻人,不要太天真!

系统搭建完毕,快(Ku)乐(Bi)之旅才刚刚开始,IT运维世界欢迎你的加入。

IT运维的核心是确保信息系统安全、高效、平稳的运行,IT运维是IT管理非常核心和重点的部分,也是内容最多、最繁杂的部分。没有经历过系统宕机、数据异常、数据丢失、删库跑路等事故的运维,不配谈人生。

经过我多年的观察和总结,诸如技术细节理解不够、风险意识及控制不足,还有像“误操作”这种看似非常低级的错误所导致的IT事故时有发生,很常见却又很难避免,每每说起,运维小伙伴都会掬一把辛酸泪。故此我整理了近年来身边曾经发生的一些运维事故,并从中挑选出有代表性的三种类型的案例与大家分享。

一、技术错误

事件1

在VMware虚拟化平台vSphere Web Client界面针对Linux系统发送Ctrl+Alt+Del 。

事件回顾:

工程师原计划在vSphere Web Client使用Ctrl+Alt+Del组合显示出服务器的登陆界面,在发送vSphere Web Client使用Ctrl+Alt+Del没有进行系统版本的确认,误以为Linux下使用Ctrl+Alt+Del命令与Windows一样,结果导致系统重启。

事件反思:

  1. 所有的操作要按照标准流程来做,针对不确定的技术问题不要想当然,需要抱有敬畏之心;
  2. 对生产系统进行操作前,必须清晰的知道每个操作带来的预期结果,无把握不操作,宁可不做也不能不确定的去做,IT运维不可心存侥幸。

事件2

删除RODC,选择了与实际操作目的无关的多余选项。

事件回顾:

工程师删除分支机构RODC,勾选了重置RODC上缓存的用户账户的所有密码,导致几百个AD用户的账号密码被修改为未知。

事件反思:

  1. 本案例中操作人员未充分评估并未意识到对DC等角色服务器进行变更的风险,对技术细节理解不够;
  2. 对于不熟悉的技术领域需辅助于工具及技术进行操作确认、测试;
  3. 谨小慎微、三思而后行。

二、风险意识及控制不足

事件1

一个“:”的缺失导致大批量用户邮件被误删除。

事件回顾:

按照用户要求,在Exchange management shell中删除用户已经完成发送的特定主题的邮件。删除命令中-subject缺少“:”,且删除命令未限定搜索范围,导致删除了全公司不确定用户对象、不确定邮件主题、不确定邮件内容的邮件。

事件反思:

  1. 充分评估执行删除命令时模糊搜索等不可控风险;
  2. 面临不可控风险时,进行删除前的备份,确保操作可回退;
  3. 进行高危操作时,提前识别风险、并做到事前预防、事中控制。

事件2

Exchange DAG服务器重启时未关注副本的状态,重启后数据库异常,导致邮箱服务中断。

事件回顾:

管理员按计划进行服务器重启,服务器为双副本的数据库,重启之前其中一个副本已经损坏无法正常切换,但未能得到管理员的重视且强制执行了重启,强制重启后原本正常的副本也无法挂载,整个数据库上的数百用户无法使用邮件,时长达到2天,最终通过数据库修复的方式将数据库恢复。

事件反思:

  1. 发现副本故障时及时修复,重启主节点时此问题也未引起管理员的重视,管理员风险意识及控制严重不足;
  2. 严格按照流程进行服务器重启,本次事件中,重启服务器节点时应先对数据库进行切换再重启,数据库无法切换时不应强制重启服务器。

三、无防备的不确定性低级错误

事件1

测试数据库与生产数据库两个命令执行窗口同时连接,误将测试库删除操作执行到了生产库。

事件回顾:

管理员原计划删除测试库的数据,在操作过程中打开了两个命令执行窗口(一个正式窗口、一个测试窗口),在本地拷贝好删除命令准备切换到测试窗口执行,鼠标在经过正式窗口时,误点击鼠标右键,导致命令直接在正式窗口执行,导致误删除生产库的部分用户数据。

事件反思:

  1. 凡是涉及到增、删、改的动作,都要再三确认后执行,而且要准备好回滚措施;
  2. 当同时连接多台服务器时,变更操作是需要反复确认,更需谨小慎微。

事件2

远程连接操作卡顿,拖影,工程师意图为点击“备份”按钮,却点击到了“还原”按钮。

事件回顾:

技术人员通过远程工具连接客户方电脑进行远程支持,排查备份系统备份任务失败问题,因网络连接状态不佳,鼠标操作经常卡顿、漂移、出现拖影,画面反馈延迟,但未能引起技术人员的重视,依然连续多次不断点击鼠标,在管理控制台“备份”和“还原”按钮相邻,试图点击“备份”按钮,却点击到了“还原”按钮,导致执行了数据恢复操作。

事件反思:

  1. 无把握不动作;
  2. 远程操作时,尽量放慢速度,网络状况不佳,当鼠标出现拖影,操作时更当谨慎。

从每一起事故的发生我们可以看出,事故之所以发生,它与技术细节理解不够、风险意识及控制不足、操作人员安全意识不高、麻痹大意心存侥幸心理、IT运维管理有漏洞都有直接关系。

IT运维担负的责任和使命是极其重要的,各类事故发生后,我们需要不断反思,思索下次如何才能避免这种事故的发生。回顾这些IT事故,希望这些曾经出现过的事件或者事故带给我们更多启迪,让这些已然发生无法挽回的IT事故发生的更有价值,以防更多悲剧的发生。

虽然上述案例中的IT事故,客观上永远无可避免,但只要有足够的敬畏之心,将安全风险意识、运维操作谨小慎微的文化理念渗透到每个IT运维人员的心中,提高防范意识,警钟长鸣,必将可以有效减少IT事故的发生。

你的运维工作中,发生过哪些事故?留言分享一下吧~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 嘉为科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档