一 故障描述
网络中的设备在转发报文时,发现接口的出方向存在报文丢弃。
二 故障处理
1、在设备上查看接口的统计计数,发现Output的Discard字段存在计数。通常情况下,该字段存在计数,可能的原因有:
<HUAWEI> display interface 10ge 1/0/3
10GE1/0/3 current state : UP (ifindex: 7)
Line protocol current state : UP
Description:
Switch Port, PVID : 1, TPID : 8100(Hex), The Maximum Frame Length is 9216
Internet protocol processing : disabled
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 58f9-8709-e691
Port Mode: COMMON FIBER, Port Split/Aggregate: DISABLE
Speed: 10000, Loopback: NONE
Duplex: FULL, Negotiation: DISABLE
Input Flow-control: DISABLE, Output Flow-control: DISABLE
Mdi: -, Fec: NONE
Last physical up time : 2018-11-01 15:52:39
Last physical down time : 2018-11-01 15:49:12
Current system time: 2018-11-05 12:10:20
Statistics last cleared:2018-11-05 12:10:02
Last 10 seconds input rate: 0 bits/sec, 0 packets/sec
Last 10 seconds output rate: 10000000000 bits/sec, 8445974 packets/sec
Input peak rate 0 bits/sec, Record time: -
Output peak rate 10000000000 bits/sec, Record time: 2018-11-05 12:10:20
Input : 0 bytes, 0 packets
Output: 7581922025 bytes, 51225582 packets
Input:
Unicast: 0, Multicast: 0
Broadcast: 0, Jumbo: 0
Discard: 0, Frames: 0
Pause: 0
Total Error: 0
CRC: 0, Giants: 0
Jabbers: 0, Fragments: 0
Runts: 0, DropEvents: 0
Alignments: 0, Symbols: 0
Ignoreds: 0
Output:
Unicast: 51225696, Multicast: 1
Broadcast: 0, Jumbo: 0
Discard: 57203902, Buffers Purged: 0
Pause: 0
Input bandwidth utilization threshold : 90.00%
Output bandwidth utilization threshold: 90.00%
Last 10 seconds input utility rate: 0.00%
Last 10 seconds output utility rate: 100%
2、可以通过如下方法,确认是哪种原因引起的丢包
(1)设备上配置了流量监管,对超出限制的报文进行了丢弃。
在用户视图下执行display current-configuration | include car命令查看当前设备上是否存在流量监管的配置。
若存在流量监管的配置,且报文会匹配流量监管配置并从丢弃报文的接口进行转发,则可以停止匹配流量监管配置的业务,看接口出方向的丢包计数是否有增长。
若无增长,则可以确认接口出方向的丢包计数是由于设备上配置了流量监管,对超出限制的报文进行了丢弃而导致的。
(2)设备上出现了PFC死锁,对死锁前缓存的报文以及死锁期间收到的报文进行了丢弃。
V200R005C00之前的版本,在任意视图下执行display dcb pfc命令查看PFC的反压帧计数。若包含存在丢包计数的端口在内有多个端口的接收PFC反压帧数、发送PFC反压帧数都非常大且计数值不断增长,并且这些接口之间存在流量转发关系,则说明存在丢包计数的端口上出现了PFC死锁。
V200R005C00及之后的版本,若设备上出现了QOS_1.3.6.1.4.1.2011.5.25.32.4.1.11.75 hwXQoSPfcDeadLockAlarm告警且该告警包含的接口名称是存在丢包计数的端口,则说明存在丢包计数的端口上出现了PFC死锁。
端口上出现了PFC死锁时,端口会对死锁前缓存的报文以及死锁期间收到的报文进行了丢弃。
(3)设备上出现队列拥塞,对超出带宽的报文进行了丢弃。
在任意视图下执行display qos queue statistics interface interface-type interface-number命令查看存在丢包计数的端口的基于队列的流量统计信息,若发现Dropped字段存在计数,则说明该接口上存在由于队列拥塞而导致的丢包。
设备上出现队列拥塞的原因可能有:
三 原因分析:
四 解决方案:
五 总结
合理规划网络流量转发路径,避免网络出现PFC死锁或者队列拥塞。
如果对你有用,帮忙点个在看+点赞+转发吧,如果有什么想法,请在评论区留言!