一、问题描述
近期用户反馈,附着正常的条件下,突然无法上网,打不开任何网页,视频的APP也无法使用。
通过海量测试,空口灌包,信令跟踪,捕捉同一终端在相同位置的问题还原二、问题分析
2.1用户跟踪分析
对于投诉用户进行单用户跟踪,分析跟踪消息,发现用户请求的DNS消息没有收到响应。反复尝试主备DNS Server均收不到响应消息。又因为正常上网用户DNS响应正常,基本可以排除DNS服务器设备故障,怀疑UGW上游传输将DNS报文阻塞。
查看现网SAEGW的配置,dns ipv4 primary-ip 115.168.254.1 secondary-ip 115.168.254.2,配置了主备两套DNS;
在用户跟踪中部分业务正常,说明到部分服务器(如下图的61.183.164.83)的路径是通的,与DNS报文路径不同。
2.2性能统计分析
取近一个月的系统历史话统来看,发现从2015年10月8日开始,上行DNS请求报文逐渐增加,而DNS响应报文数量基本不变,怀疑是PGW上游某传输设备只阻塞了部分用户的DNS请求报文,对于未阻塞的DNS请求报文可以正常回复响应。至于DNS上行报文突增厉害,应该是少量用户反复尝试导致
计算DNS回响应比例,截止10月中旬降到50%左右。如下图:
2.3操作排查
前期UGW做了地址段的扩充(10.148.0.0-10.155.255.255),如下图配置,两套UGW各扩充4个B段地址。同时Gi侧防火墙设备配合放通操作,经确认,防火墙配置有误,扩充的地址段路由不通。当此扩容的地址段被用户分配使用时,就会出现业务不通。从用户跟踪获取的用户IP地址(10.148.81.128和10.148.17.106)也正是落在扩充的地址段内
分析UGW操作日志,发现在9月25日进行了扩容操作,在 10月初新扩充地址段被分配使用后,问题逐渐爆发。
2015-10-28中午11点左右在防火墙上将数据修正后,DNS回响应正常,投诉现象消失。如下图
三、问题结论
用户概率无法上网原因解释:局点两套UGW上扩容的地址段在Gi侧防火墙上的放通数据配置错误,当用户分配的IP地址落到到问题地址段内,去DNS请求的业务因DNS报文被防火墙阻塞从而上网失败,对于不需要去DNS请求的业务走不同路径可以正常访问。
在防火墙修改配置后,业务恢复,投诉现象消除。
领取专属 10元无门槛券
私享最新 技术干货