首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

排查问题犹如破案,运维老司机分享故障排查总攻略,全是干货!

有这样一种职业,每天只能和电脑、服务器等冷冰冰的设备亲密接触,要无时无刻忍受噪音和辐射的折磨,加班更是家常便饭,最惨的是还要各种背锅和填坑,这就是运维!每个杂乱无章的问题背后都需要抽丝剥茧,有时甚至可以说是毫无头绪可言!

不少运维小白会觉得,运维大神排查故障靠的是一种玄妙的感觉。其实运维并非一门玄说,就如同警察破案一般,是一个不断思考、假设、推理的过程,也有一定的不成文的通用实践规则。在此,小编就跟大家分享一位运维大神的“故障排查”秘籍,希望可以与广大运维大大产生共鸣!

调整心态,冷静处理

时至今日计算机系统已经变得异常复杂,一次用户请求可能要经过发送请求,DNS解析,运营商网络,负载均衡,服务器,虚拟机(容器),视业务逻辑的复杂程度可能还要调用组件,缓存,存储和数据库等。每个环节都可能出现问题,有的组件又是分布式的,大大增加的排查问题的难度,所以出现问题后不要慌,保持好的心态。

恢复系统是要务

飞机在发生紧急情况下,飞行员的首要任务是保持飞机飞行,相比保证乘客与飞机安全着陆,故障定位和排除是次要目标”,所以恢复线上系统是首要任务,而不是立马找到它发生的原因。

了解案情,评估大小

先评估出这个问题的影响范围,是全网,某些地区,还是某条链路不可用的问题,还是很多业务线都出现问题,评估出案情的大小,到底是普通的民事案件,还是刑事案件。

理清线索,整理分析

理清手头已得到的信息或线索,比如监控上有网络报警,有用户反馈无法访问,有开发人员反馈服务器有问题,同时间段有做变更等等,尽量不要漏掉这些看似无关紧要的线索,把这些线索先整理下来,后面一并分析。

推理的过程,就是根据已知线索,通过合理的想象、推断得出一个唯一的结果。线索是整个推理过程的起点,线索给出的好有不好、是否有错误,直接会影响推理的质量,因此是最基础、也是最重要的一环。线索的梳理,最常犯错误就是信息不足,主观臆断。

扩大你的信息量

主动扩大信息的接收面,比如问询一下开发或算法同学,今天有没有做线上改动,网络组有无重大调整。从中获取到有价值的信息点,对于排查问题至关重要。查看监控,细看某个监控项的变化,追踪日志和调试信息都是扩大信息量的手段。

拓展知识面,闲暇时间多些了解相关联系统,比如架构,部署,逻辑等。一旦故障发生,讨论中也可提供你解决办法的思路,举一反三,推进问题的排查与解决。

分析证词,甄别对错

如果是外部提出的问题,比如业务投诉,用户反馈等信息,有时候是可信的,有时候人却是不可信的,举个例子之前有开发反馈效果有问题,有些广告位bias异常,有些正常,让我们帮查查系统的问题,但是最后是代码调用一处动态配置造成的。有些时候反馈的信息,是经过描述者过滤加工过的信息,他的排查和分析有可能把你带偏了,在收集信息同时需要以审视、怀疑的态度,分析每个人的证词。

每个人的学习能力其实都很强的,随着经验的积累,甄别证词能力也会逐渐提升。

看清问题本质

“听到马蹄声时,猜马,不要猜斑马”看到一件现象或一件事情,要看实质而不只是表面的东西,听到马蹄声时候猜是什么马,是什么人的马,是来干什么的而不是猜它是斑马还是白马还是黑马。

排查问题也一样切忌先入为主,有时候看似不可能发生、极其简单的事情可能就是最终原因,不要轻易的排除掉某项原因,比如“宇宙射线引发SSD数据错误”。

确定方向,开展定位

确定侦查方向,如从大到小,从上到下排查步骤,从大到小先看比如IDC网络,机房状态等比较宏观的地方是否有问题,逐一排除,逐步缩小问题范围。从上到下先从现象发生的顶端调用链逐一排查,逐步向下深入。

并不是所有问题都从大到小从上到下,宏观问题只有达到一定量级才会引发”质变”,从而引起的注意,在通往质变过程中,你的业务可能已经收到某中影响而表现的很明确,此时需要微观分析,然后再逐渐到宏观来诊断。

卷宗记录,破案归档

好记性不如烂笔头,然而在一片混乱问题分析当中,让运维心平气和地记录下问题与判断确实有点不切实际。但即使如此,我们仍然可以在事情结束后为保留一份分析资料,总结并记录处理过程中的执行步骤以及解决途径,则能帮助自己和团队积累宝贵的处理经验。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181221A0TFXH00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券