前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >网络中出现故障该如何排障?具体排除流程有哪些?【网络排障连载01】

网络中出现故障该如何排障?具体排除流程有哪些?【网络排障连载01】

作者头像
Ponnie
发布2022-04-18 19:20:31
1.3K0
发布2022-04-18 19:20:31
举报
文章被收录于专栏:玉龙小栈玉龙小栈

企业数通网络用到多种设备类型,设备之间使用多种物理链路连接,同时为了准确的完成数据包的转发,网络设备运行了多种网络协议。网络设备,线缆、以及网络协议都有可能产生网络故障,如何快速完成故障处理是一个高级网络工程师的基本素养。

什么是网络故障

  • 网络故障是指由于某种原因而使网络丧失规定功能并影响业务的现象。
  • 从用户的角度出发,凡是影响业务的现象都可以定义为故障。
  • 常见的故障现象和分类如下:

结构化的网络故障排除流程

  • 如果采取非结构化的网络故障排除流程,就只是凭直觉在这些步骤之间重复执行,虽然最终也可能找到解决故障的方法,但没有办法保证效率。
  • 在复杂的网络环境中,有可能会由于非结构化的网络故障排除流程而导致新的故障,从而使网络故障的排除变得更加困难。所以咱们应该要按照结构化的网络故障排除流程来定位对位故障点,并加以改正。

报告故障

  • 企业中存在多个部门,例如财务、人事、后勤、市场、研发等,这些部门之间的网络有互联互访均需求。为了保障网络的正常运行,企业可能存在如下情况:
    • 大中型企业成立网络维护部门,构建专业的网络团队。
    • 小型企业为了节省成本,一般不存在单独的网络维护部门,而是将网络托管给专业的网络维护公司。
    • 求助设备生产商,拨打厂商的售后服务电话。
  • 一般情况下网络故障的第一感知人员并非网络维护人员,而是其他业务相关的各个部门人员。网络工程师经常接到各种求助电话,例如“电脑突然无法上网” 、“网页无法正常显示”、“游戏没法玩了”……

报告故障:主动沟通确认

  • 在电话里询问用户上面的内容,并记录在排障报告中。
  • 为什么需要了解用户的职位级别、工作内容等信息?
    • 因为在企业环境中,不同级别的用户可能会有不同的网络访问权限。

确认故障

为什么要确认故障?

  • 用户的描述可能是含糊不清的,报告的故障也不一定是真实的故障点,所以需要有经验的工程师进行确认故障的工作。

确认故障的四个要素:

  • 故障的主体:哪个网络业务出现了故障。
  • 故障的表现:故障的现象是什么样的。
  • 故障的时间:用户是什么时间发现的故障,以及专业人员推测的故障出现的真实时间。
  • 故障的位置:哪个网络组件出现了故障。对故障现象进行准确的描述。

最后应确认该故障是否属于自己的负责范围,即自己是否被赋予了相应的权限来处理该故障。

收集信息

需要收集哪些信息:

  • 收集信息阶段主要是收集与故障相关的信息,如文档、网络变更情况等。如何收集这些信息:
  • 使用设备自身的操作命令;使用信息收集工具,如抓包工具、网管软件等。获取授权:
  • 在对信息安全要求较高的网络环境中,对信息的收集是需要得到授权的,有时需要签署书面的授权文件。收集信息阶段的风险评估:
  • 有些收集信息的操作,如对路由器或交换机执行”debug”命令,会导致设备的CPU占用率过高,严重的情况下甚至会使设备停止响应用户的操作指令,从而引入额外的故障现象。所以在收集信息的时候应评估这些风险,平衡引入新故障的风险与解决现有故障的紧迫性之间的关系,并明确的告知用户这些风险,由用户来决定是否进行风险较大的信息收集工作。

判断分析

判断分析阶段是对收集到的信息进行分析整理。

  • 通过对故障信息、维护信息、变更信息的汇总,结合团队经验(或个人经验)进行综合的判断和分析,得到可能导致网络故障的原因列表。

原因列表

在原因列表阶段,首先需要列出所有可能的故障原因,然后通过信息过滤,列出最可能的待排查故障原因,同时排除掉当前最不可能的故障原因,从而缩小故障的排除范围。

故障评估

在故障评估阶段可能需要搭建临时的网络环境。

  • 对复杂的网络故障,如果经过评估认为短时间内无法排除故障,而用户又需要马上恢复网络的可用性,这时可能需要临时跳过故障节点,搭建替代的网络环境。
  • 搭建临时网络环境的时候,应充分考虑到解决问题的迫切性与绕过某些安全限制措施的危险性,应与用户进行充分的沟通,并在得到许可的情况下才能执行。

逐一排查

  • 在逐一排查阶段同样需要平衡解决问题的迫切性与引入新故障的风险性之间的矛盾。所以,应该明确告知用户排查工作可能带来的风险,并在得到许可的情况下才能执行操作。
  • 有些情况下,通过逐一排查验证推断的过程涉及到网络变更,这时必须做好完善的应急预案和回退准备。

解决故障

  • 如果通过逐一排查找到了故障的根本原因,并排除了故障,网络故障排除的流程就可以结束了。
  • 复杂的网络环境中,故障现象消失后仍然需要观察一段时间,一方面确认用户报告的故障已经得到了解决,另一方面确认故障排除的过程中没有引入新的故障。

收尾工作

  • 收尾工作包括相关文档的整理、信息的通告等。需要对之前网络故障排除流程中所有进行了变更的配置或软件进行备份,并做好故障排除文档的整理和移交工作。为了避免同样的故障再次发生,在此阶段应该向用户提出改进建议。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 玉龙网络新知社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是网络故障
  • 结构化的网络故障排除流程
  • 报告故障
  • 报告故障:主动沟通确认
  • 确认故障
  • 收集信息
  • 判断分析
  • 原因列表
  • 故障评估
  • 逐一排查
  • 解决故障
  • 收尾工作
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档