前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >HCIE数通丢包排错思路。

HCIE数通丢包排错思路。

作者头像
Ponnie
发布2021-02-24 11:03:20
2.8K0
发布2021-02-24 11:03:20
举报
文章被收录于专栏:玉龙小栈玉龙小栈

HCIE面试中有一道项目题,网络中发生丢包行为的排查思路和具体实施方法:

回答总体思路:

1、 先确定是否发生丢包以及哪些设备访问的时候会发生丢包;

当发现设备访问某一网段时有丢包,可以先在多台设备上去 ping 目的网段的周围的多个网段(类似于诊断六那样),用于确定是何种流量丢包还是所有流量都会丢包;

如果是具体一种流量丢包的话可以确定为做了路由策略或者策略路由(类似诊断六,带源不能通,不带源就行);

如果是多种流量都丢包,造成的原因就可能很多,物理层、数据链路层、网络层以及策略路由都有可能;

2、判断丢包位置;

方法有两种:

第一种:使用 ping 和 tracert 一段一段测试,先 ping 网关,然后是网关的下一跳,一直到目的地址,或者用 tracert 跟踪可以确定具体在哪一跳丢包;这种方法简单,但较为粗糙一些,因为丢包可能是间歇性的,需要多次ping 和tracert,测试多次。

第二种:使用流量统计的方法,如图,沿着发生丢包的链路,在设备的入接口和出接口上部署流策略,分别统计入接口的 Inbound 方向和出接口的 Outbound 方向的特定报文, 以确认该类报文是否在本设备被丢弃。

以端口a入方向和端口b 出方向,端口 b 出方向和端口c 入方向的流量统计情况为例。

如果端口a入方向和端口b 出方向 Passed 计数大致相等,说明此处无丢包。

如果端口a入方向的报文 Passed 计数多于端口 b 出方向的报文 Passed 计数,说明丢包发生在 Switch_3。

如果端口b 出方向和端口c 入方向Passed 计数大致相等,说明此处无丢包。

如果端口b 出方向的报文Passed 计数多于端口c 入方向的报文Passed 计数,说明丢包发生在 Switch_3 和 Switch_2 之间的物理链路上,请参考检查设备之间的物理链路进行定位处理。

流量统计配置方法:

配置 ACL 规则。

<Switch_3> system-view

[Switch_3 acl number 3000

[Switch_3-acl-adv-3000] rule permit icmp source 192.168.100.1 0 destination 202.10.1.1 0

[Switch_3-acl-adv-3000] quit

配置流分类。

[Switch_3] traffic classifier 3000

[Switch_3-classifier-3000] if-match acl 3000

[Switch_3-classifier-3000] quit

配置流行为。

[Switch_3] traffic behavior 3000 [Switch_3-behavior-3000] statistic enable [Switch_3-behavior-3000] quit

配置流策略。

[Switch_3] traffic policy 3000

[Switch_3-trafficpolicy-3000] classifier 3000 behavior 3000

[Switch_3-trafficpolicy-3000] quit

在接口上应用流策略。

[Switch_3] interface gigabitethernet 1/0/2

[Switch_3-GigabitEthernet1/0/2] traffic-policy 3000 inbound

[Switch_3-GigabitEthernet1/0/2] quit

3、排查具体丢包原因

(1)如果丢包发生在物理线路上,接下来主要检测设备之间的物理链路;物理链路故障的原因主要有:

※双工或速率不匹配

※线缆接头接触不良或松脱

※物理连线过长或出现破损

针对物理链路故障,具体排查方法如下:

A、查看设备端口指示灯状态。

如果是常灰,说明无连接。此时需要更换接口或者网线再进行尝试。

B、检查查设备之间的链路、接口模块是否故障。

如果设备之间通过双绞线连接,用测试仪测试双绞线是否故障,检查设备间双绞线长度是否满足要求,检查双绞线线序类型是否正确。

如果设备之间通过光纤连接,检查设备间光纤的长度和光模块支持的传输距离是否匹配, 光纤的长度小于光模块支持的传输距离;用测试仪测试信号的衰减是否在允许的范围内;通过告警信息查看光功率是否正常等。

(2)如果丢包发生在设备上,接下来主要检查设备或协议等问题,原因可能有:

※物理层:设备单板故障、上送CPU 的报文速率超出设备限速;

※数据链路层:存在环路、arp 攻击以及配置错误,配置问题主要有:vlan 配置错误、黑洞 mac、端口安全、vlan 隔离和防环协议等;

※网络层:路由震荡、路由环路、路由过滤、配置安全策略,如IPSG、URPF 等;

※QOS 配置:限速处理、报文过滤、流量过大、拥塞避免等配置;

A、物理层检查,确认在对业务没有影响的状况下,尝试复位或拔插单板恢复业务,观

察丢包现象是否有所缓解。CPU 检查可以通过命令查看上送 CPU 报文的统计信息,确认对应的业务是否丢包;

B、数据链路层检查:如果存在环路会引起广播风暴或 MAC 地址震荡,二层环路出现, 广播风暴会使得交换机同vlan 所有端口高速转发,且指示灯都会快速闪烁状态;

arp 的攻击主要两类,防洪攻击和欺骗攻击,如果有收到大量 ARP 报文说明存在泛洪攻击,三层设备上的ARP 表对应关系不同说明存在欺骗攻击;

配置的话主要查看设备的配置,依次查看是否 vlan 配置错误、是否有黑洞 mac、端口安全、vlan 隔离等配置。

C、网络层检查:查看是否有目标网段路由,以及是否出现路由互指情况,可多次查看是否有路由震荡情况,最后还可查看是否有安全方面的配置,如 IPSG 和 URPF 等;

D、QOS 配置检查:查看接口速率和实际报文速率作对比,看是否流量过大;查看接口是否有针对报文做了限速或者过滤配置,以及拥塞避免等配置。

概括点:谨慎回答

停更很久了,因为备考学历证书没有拿出时间来写文章,今天开始恢复更新。先更新一篇面试文章。后面会陆续更新HCIE Cloud及Datacom的文章。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 玉龙网络新知社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • HCIE面试中有一道项目题,网络中发生丢包行为的排查思路和具体实施方法:
    • 回答总体思路:
      • 1、 先确定是否发生丢包以及哪些设备访问的时候会发生丢包;
        • 2、判断丢包位置;
          • 流量统计配置方法:
            • 3、排查具体丢包原因
            • 概括点:谨慎回答
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档