首页
学习
活动
专区
工具
TVP
发布

网维案例(1):宽带异常掉线快速定位区域故障

宽带掉线是指Bras无法监测到用户拨号路由器在线,而向上层Radius服务器报告用户已下线的情况。日常运维工作中,我们首先要区分“正常下线”和“异常掉线”两种情形。

正常下线只指用户关闭路由器电源或者长时间不使用宽带路由器自动关闭拨号连接。

异常掉线,分两种原因用户终端(路由器)问题或者链路中断问题导致的用户掉线:

(1)用户掉线时BRAS上报的原因为”User_Request”(用户请求),为路由器主动发起的下线,一般是路由器问题导致。

(2)‍用户掉线时BRAS上报的原因为”Lost_Carrier”(载波丢失),实际上是链路中断导致。路由器拨号上线后,BRAS会每分钟左右向用户路由器发送心跳消息(EchoRequest),以检测用户路由器是否在线,如果连续发3心跳消息,用户路由器仍没有响应,相当于已经ping不通用户,BRAS会上报”Lost_Carrier”(载波丢失),将用户标记为下线。

宽带异常掉线节点定位规则

现网中宽带实际组网是树形组网,如果把BRAS作为树的根节点,则汇聚交换机、OLT、ONU分别构成各自的子树,而用户则是这棵树的叶子。由于BRAS会在一分钟内向所有在线用户发送echo(ping)请求,也就是根节点会向所有叶子发送echo消息,如果出现区域性断线故障,则会出现多个叶子同时没有响应echo消息,这些叶子总能映射到一个子树节点上,这个子树节点就是故障点。

1、ONU故障:

2、OLT整体故障:

3、OLT端口级/板卡级故障

现网案例(一)

通过在某市部署的宽带大数据运营支撑平台的日常监测,发现到“X市X县X乡X村”存在批量用户频繁同时掉线的情况(BRAS给在线用户发心跳包,连续发3次没有收到响应则用户将被强行下线),一共出现89次,且一般是每隔5分钟就掉线一次,短时间内又恢复,反复不断,初步分析可能是该片区域对应的设备存在问题。实际排查发现,通往该村的主干光缆由于光衰过大,所以导致该村批量用户频繁同时掉线,经处理优化后已恢复正常。

2018年7月3日和2018年7月5日(优化后),该村不同时段掉线用户占比分析:(掉线用户占比公式=该区域不同时段掉线用户数/该区域总用户*100%)

现网案例(二)

通过宽带大数据平台日常监测到“XXX市XX区XXX小区21号机箱栋1单元6层604”的用户频繁掉线的情况(BRAS给在线用户发心跳包,连续发3次没有收到响应则用户将被强行下线),一共出现51次,短时间内又恢复,反复不断,初步分析可能是该用户的光猫存在问题。实际排查发现,该用户的光猫由于光衰过大,所以导致该用户频繁掉线,经处理后已恢复正常。

2018年7月5日和7月8日(优化后)该用户不同时段掉线次数分析:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180711G1L43Y00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券