首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

网络事故报告:软件BUG设备重启PCRF拥塞

12月9日,日本总务省针对乐天移动9月4日发生的大规模通信故障发布行政指导。

故障概述

9月4日11点20分至13点26分,乐天移动网络发生大规模通信故障,导致全日本范围内大量用户无法上网和进行语音通话。

故障分析

1

西日本数据中心中的数据中心交换机因软件问题而意外重启。

由于软件BUG,数据中心交换机的系统日志没有自动删除,保存日志的内存耗尽导致运行不稳定。

2

与此同时,分组交换设备发生系统重启。

3

分组交换设备重启后,掉线的用户终端集中大量发送“重连请求”,造成策略控制设备PCRF短时间内发生拥塞。

随后,东日本数据中心中的PCRF也发生拥塞。

PCRF,Policy and Charging Rules Function,负责管理用户的数据流量、话费等,比如,当用户使用流量超出套餐后,PCRF可对用户流量限速。

故障处理

应急处理

故障发生后,乐天移动启动“应急模式”,断开分组交换设备与PCRF连接,直到PCRF拥塞缓解。

短期措施

针对软件缺陷,定期删除应自动删除的不必要日志,并计划于2023年3月底前完成软件修复。

长期措施

针对此次重大网络事故,日本总务省发布指导:一是要求运营商定期对当前使用的软件进行风险分析;二是要求运营商与设备供应商研究数据中心交换机的隔离功能,以防止故障在核心网蔓延而造成网络重大事故;三是优化故障应急预案,部署完全自动化的故障恢复流程,以缩短故障时长。

通信路上,一起走!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20221215A06Z3600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券