4G驻留比大数据分析方法论研究与总结

摘要:

随着电信的4G网络逐步向乡镇农村推进,网络的覆盖范围逐步扩大,用户规模不断增长,如何精确的分析网络性能,直观的体现用户感知,成为当前网络分析工作的重点和难点。本文通过对用户话单和使用终端数据的深度挖掘,结合“大数据”分析的相关方法,利用成熟的SQL SERVER数据库系统,实现直接针对用户使用的区域、流量时长等行为的分析,重点针对4G用户切3G的情况进行分析定位,真实反映出网络和用户使用方面的问题,为网优和规划工作提供有效的参考。

关键词:用户话单、终端类型、大数据分析、4G流量时长驻留比、高值用户

1、分析背景:

随着4G网络覆盖范围的扩大以及用户增长,4G网络和3G网络覆盖水平日益接近,通过对4G用户切换到3G网络这一行为的分析和定位,可以有效的反映4G网络的真实覆盖水平和用户感知。

常规的分析手段,以网管性能数据为基础,站在网络侧的角度,以扇区为最小维度,得出的结论可以反映网络的基本覆盖情况,但往往和用户真实感知有一定的差距。本文通过对用户话单数据进行深度挖掘,分析结论直接反映用户的使用行为,更能贴近用户感知。

2、分析方法:

考虑到数据规模庞大,关联关系较为复杂,本案例部分采用大数据分析的理论基本方法进行分析。

2.1 需求分析:

结合本案例的具体目标,主要需求针对目标用户从4G切换到3G的现象进行仔细的分析和定位,满足这一需求,主要需要以下几个方面的数据:

2.2 数据准备:

通过以上分析,需要的数据主要有:话单数据、扇区数据、用户终端信息数据。其中话单数据和用户终端信息数据由本地企信提供,扇区数据从“爱网优”平台提取,此类分析对实时性要求不高,为了避免接口上的繁琐,所有数据统一采用标准文本文件的格式提供。因话单数据非常庞大,为了更有效率的处理,采用SQL SERVER数据库进行数据的处理和计算。文本文件导入后,数据表结构如下:

话单表:

终端类型表:

数据表导入后,还需要对数据进行一些初步的处理,剔除一些无用噪声数据,根据开始结束时间计算出时长数据填入数据表中等等工作均在这一步骤完成。

噪声数据主要有数据类型错误、超高流量的测试用户、异地漫游数据等;

时长数据用结束时间和开始时间之间的时长得出。

2.3 建立模型:

承接上文的需求,本次分析的考虑建立以下的主要模型:

2.4 数据挖掘:

挖掘过程是按照上文的分析模型,通过编写sql语句,通过数据库计算输出最终结果,相应的语句主要有以下几种:

以上语句,主要基于几种思路编写:

2.4.1 对原始话单数据表按照用户号码进行汇总分析,得出全网每个用户的流量和时长,由此得出每个用户的3G和4G使用情况;

2.4.2 对原始话单数据和终端类型进行关联分析,得出全网不同终端的流量和时长数据,由此得出不同终端类型的流量时长占比情况;

2.4.3 对原始话单数据表和基站扇区表进行关联分析,得出不同扇区的3G和4G流量,3G流量高的扇区,认为是4G网络存在覆盖问题的区域;

2.4.4 对原始话单中使用4G终端,但没有4G流量的用户进行分析,这些用户如果在4G覆盖区域内,认为是用户自己关闭了手机的4G功能;

2.4.5 对产生3G流量的扇区覆盖的区域类型进行关联分析,反映出不同区域类型的4G网络覆盖情况。

2.5挖掘分析结果:

2.5.1各类型业务流量和时长占比情况:

上图数据反映流量占比情况,4G流量占比81.17%,3G流量占比18.65%,2G流量和其他特殊业务的流量占比较低可以忽略。

上图数据反映时长占比情况,4G时长占比69.43%,3G流量占比30.18%,2G流量和其他特殊业务的流量占比较低可以忽略。

2.5.2用户产生3G流量和时长的原因分析:

本期分析主要是通过对4G用户话单中的3G流量产生原因和产生地点进行分析,希望以此找到当前LTE网络覆盖的薄弱区域,找到高质用户的地理分布和使用行为规律,为后期的建设和优化提供方向。

原因1-非4G终端:

这部分用户共788个,占所有用户的0.75%,产生流量72240MB,占所有3G流量的1.56%。产生时长81247874,占所有3G时长的0.61%

原因2-人为关闭4G功能:

这部分用户共13628个,占所有用户的13%,产生流量1575027MB,占所有3G流量的34%。产生时长1534785757s,占所有3G时长的46%。

原因3-因为覆盖不好原因4G切3G:

针对这个原因,从以下地理区域维度进行分析:

从区域类型分布上看,居民区、农村区域占比最大,说明居民区的深度覆盖和农村区域的广覆盖仍然是网络覆盖的薄弱点。

2.5.4 TOP用户和TOP扇区:

2.5.3 高值用户分布:

以IPONE6手机用户为分析对象,统计占用的流量TOP500扇区分布图,以此分析高值用户的分布情况,可见绝大部分的高值用户,分布区域在城区和极少数的几个重点乡镇,另外在一些重点景区,也是高值用户的流量集中的区域,这部分区域是后期网优和建设工作的重点保障区域。

3、结论和推广价值:

本案例通过借鉴大数据分析的有关方法,对用户话单数据、终端类型数据、扇区地理分布数据进行综合分析和挖掘,最终找出当前网络中4G用户3G流量的产生原因。通过对3G高流量扇区的分析,发现网络存在问题的区域,发现高值用户的分布区域,为网络优化和网络建设提供方向。

因为数据源是直接来自用户话单,这些问题的解决,将直接带来用户感知的提升。此外通过建立归纳模型,使得此类方法能够有更多的可拓展性,可以从数据中挖掘更多有价值的东西。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180417A04TX900?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券