数据中心-网络条线事件定位处置思路

网络事件发生后,以快速排除故障、尽快恢复业务为最高目标。用户报障、工程师巡检或监控时发现网络设备或线路故障时,网络工程师应尽快根据事件现象进行故障定位。故障定位后有应急预案的,按应急预案处理;没有应急预案的,根据分析结果,由所属团队出具解决方案,经批准后按方案进行处理。

一、网络故障排查思路

1、 首先尽可能准确收集故障信息:故障发生时间、故障现象、影响范围。了解故障表现出来的现象,然后才能确定可能产生这些现象的故障根源或症结,对网络故障做出完整、清晰的描述是第一步。

2、 根据用户反映的故障现象,结合网管告警,判断是个别终端故障还是同时影响多个用户的网络故障。

3、 根据网络故障影响范围,工程师根据经验判断最可能的原因,并进行验证,如确实为该处故障,立即制定相应解决方法,如果不是,进行系统排障。

4、 系统性网络排障有三种方法:按照OSI七层模型,有自上而下(应用层到物理层)、自下而上(物理层到应用层)和从中间层(网络层)入手的排障方法。

5、 明显属于应用层故障的,如到DNS服务器网络可达,但DNS无法解析或解析异常,可从应用层开始从上向下进行排查。

6、 对于明显属于物理层故障的,如网卡灯不亮、光模块不发光、网管告警显示相关网络设备存在硬件告警的,可优先从物理层开始,从下至上进行排障。

7、 对于无法确定是物理层故障或应用层故障的,可以先从OSI七层模型的中间层-网络层开始进行故障定位。

8、 源到目的业务端口不可达:如果业务系统访问对端不通,可根据源目地址、TCP端口等信息,执行源到目地址和端口的连通性测试:从源地址telnet目的地址的TCP业务端口,看能否建立连接。如果无法建立连接,可以使用tracert检查路由是否正确,定位出错的网络设备或网段,在该设备上检查设备CPU、内存利用率是否异常,设备日志是否有告警信息,路由协议是否正常,ARP信息是否正确,地址转换是否正常,并发连接数是否正常,双机是否正常,在路径中所有防火墙上检查安全策略是否开放。

9、 源到目的端口可达但传输速度慢:如果业务端口可达,但传输速度慢,使用ping大包(2000字节)和tracert检查无规律丢包和明显延迟的网络位置,在该设备上检查设备CPU、内存利用率是否异常,设备日志是否有告警信息,路由协议和VRRP协议是否正常,地址转换是否正常,并发连接数是否正常,双机是否正常,接口有无错误计数或专线带宽是否拥塞,从网络层往上或往下进行故障原因的分析。

10、 如果业务路径经过专线,需判断专线是否异常,点对点连通性丢包率超过万分之五(注意QOS影响),接口输入错误或CRC出现连续增长,则需要联系运营商进行专线排查。

11、 如果连通性、设备性能、链路质量安全策略都没有问题,则需要进一步对业务系统的负载均衡配置情况、业务系统本身情况、DNS解析情况进行分析和排查。

12、 对于疑难故障,则需要联系业务部门获取业务依赖关系,理清数据访问路径,通过流量分析工具进行进一步的原因分析。

二、故障处置

1. 普通接入故障。了解用户故障的相关信息,如用户办公地点、用户准入系统认证是否通过、用户终端是否进入正确的VLAN、能否正确获取IP地址、用户网线连接情况、用户所接入交换机状态或接入端口状态等进行排查分析。找到故障原因后,进行相应的故障处理。

2. 网络设备配置故障。根据用户反馈的故障现象, 了解相关网络结构或配置是否最近修改过,即问题出现是否与网络变化有关,是否近期的变更造成,对相关变更方案和变更操作情况进行回溯和排查,对相关访问策略、路由策略等配置情况进行排查,判断故障是否因为设备配置原因造成。如是,按照ITIL流程提出变更申请,审批通过后进行配置变更。

3. 链路利用率过高。当网络遭受攻击或网络内病毒爆发时,会出现带宽利用率过高或设备CPU利用率过高等异常现象。此时应通知安全工程师通过安全监控平台检查网络内是否存在网络攻击,同时登陆相关的网络设备,实时分析是否有异常流量,如存在异常流量通知相关团队进行处理,必要时可以通过断开网络端口或使用ACL的方式对该问题主机实施断网。

4. 设备性能异常。在网络设备遭受攻击或网络内存在环路的情况下会出现此类性能异常。此时应通知安全工程师通过安全监控平台检查网络内是否存在网络攻击,同时登陆相关的网络设备,分析设备性能异常原因,对故障源进行定位,对攻击主机进行上报,通知相关团队进行处理,必要时通过关闭网络端口或断开的方式对该问题主机或环路端口实施断网,对引起广播风暴的接口进行关闭。

5. 设备软件故障。对设备软件BUG引起的故障,提出临时解决方案,根据临时解决方案,经审批后作为临时应急措施实施。现场工程师收集故障信息并记录后,向设备厂商开CASE,和厂商共同分析故障。根据厂商推荐的软件更新版本,按照ITIL流程进行版本升级。

6. 设备硬件故障。判断为硬件故障的,收集故障信息,如有备件,使用存放在备件库房的备件进行故障部件的更换,将配置恢复至新的设备中。对故障信息进行记录,向设备厂商开case进行硬件的更换。

7. 广域网线路故障。发现故障后由负责工程师即刻向运营商进行线路故障申告,配合运营商进行故障线路的分析处理。当一条线路发生故障时,该线路上承载的业务会自动迂回到其他线路上。但是当该线路不停翻转(端口持续up/down)时,会对业务造成影响,这时应首先关闭该线路端口或断开该线路的BGP连接,使该线路不再承载流量,然后向运营商进行故障申告,配合运营商进行故障排查,待线路恢复后重新启用该线路。

8. Internet出口线路流量异常。当Internet出口线路受到DDOS攻击时,会造成线路流量拥塞而无法访问internet。网银线路已购买运营商的防DDOS攻击服务,应立即通知运营商进行流量清洗。办公互联网线路未购买防DDOS攻击服务,情况严重时应考虑关闭该条线路到internet的连接。

9. 双机故障:查看双机热备状态、查看配置同步状态,查看物理链路,检查相关配置,如配置正确但主设备异常或出现双活时,可以在收集完成相关信息后,在行方批准后把应用切换到备机或把主设备重启或把主设备从网络隔离。

10. 其他故障。对于非配置引起的无法确定的故障,现场工程师收集故障信息并记录后,即刻向设备厂商开CASE,和厂商共同分析故障,根据厂商提供的解决方案,按照ITIL流程进行配置变更。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20190119A1321D00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券