摘 要 简要介绍了网络大数据的概念,分析了运营商网络大数据的构成及带来的挑战,并从网络大数据存储与技术平台、感知与获取、清洗与提炼三个方面对运营商网络大数据技术进行解析,最后对运营商的网络大数据机遇进行了展望。
关键词 大数据 网络大数据 数据清洗 数据存储 数据挖掘
1
引言
近年来,随着互联网技术迅猛发展和智能终端的大量普及,数据呈现爆发式增长,给许多行业带来了严峻挑战和巨大机遇,整个信息社会已经进入了大数据时代。一般意义上,大数据是指无法在一定时间内用常规机器和软硬件工具进行感知、获取、管理、处理和服务的数据集合。而网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生的并可在互联网上获取的大数据。当前网络大数据规模和复杂度正在快速增长。根据IDC数据,2011年网络大数据总量为1.8ZB,预计2020年将达到35ZB。大规模、高复杂度的网络大数据,给现有的硬件体系架构和软件处理算法带来巨大挑战。
为应对这些挑战,学术界中信息科学、网络科学、系统科学等领域的研究人员投身到网络大数据研究中,并发展出了一个新兴交叉学科:网络数据科学与技术。Nature和Science等刊物相继出版专刊来探讨大数据研究。如2008年Nature出版的“Big Data”专刊,从互联网、超级计算、环境科学、经济学、生物医药等多方面介绍了大数据的挑战。2011年Science推出“Dealing with data”专刊,讨论了数据洪流(Data Deluge)所带来的机遇。在学术界以外的各应用领域,以IBM、Google、Amazon为代表的一批IT及互联网企业以及其他一些传统行业企业,已经进行广泛探索和实践,在数据源、开源项目、基础设施、跨平台解决方案、分析工具和行业应用等多个环节上取得突破。
2
网络大数据概述
2.1
网络大数据的构成
一般而言,网络大数据按数据类型可分为自媒体数据、日志数据和富媒体数据三类。其中,自媒体数据主要是指通过社交网络、微博、视频及图片网站等在线渠道产生的用户生成数据(User Generated Content, UGC),其数据总量很大,更新速度很快,关联性复杂。例如,Facebook每天至少产生1000万张图片,其中包含了10亿多条用户好友关系。
日志数据主要是指各种网上服务提供商积累的系统和用户操作的日志记录,例如Google、百度等搜索引擎提供商积累的用户搜索行为日志,Amazon、天猫等网络购物平台积累的用户交易数据,以及中国移动、中国电信等运营商积累的用户通话日志数据、互联网流量日志数据等。此类数据的特点是具有大量的历史性数据,数据增速极快,数据访问吞吐量巨大。
富媒体数据指多种媒体数据(包括文本、音频、图片、视频等)的聚合、动态与交互。例如, HTML、Java scripts、Flash 等所产生或解析的数据,以及分类标注、内容标签、格式编码、内容集成、流化处理、数字影院、用户端、数字版权保护和管理等诸多信息。因此其特点除了数据量巨大以外,还具有多源、异构的特性。
2.2
运营商的网络大数据
运营商的网络大数据主要指日志数据,包括通话日志数据及互联网流量日志数据。通话日志数据对应的是传统的语音业务。近年来随着移动互联网及OTT业务的发展,传统语音业务市场已近饱和,出现零增长甚至负增长。通话日志数据由于其高度隐私性,目前尚未达到对外开放和应用的阶段。
互联网流量日志数据包括固定宽带流量和移动网络流量。随着互联网流量的快速增长,特别是移动互联网流量的迅速增加,运营商开始重视管道数据,挖掘其中的大数据价值。因此,互联网流量日志数据是运营商最重要的网络大数据。
2.3
网络大数据带来的挑战
从技术角度讲,网络大数据带来的挑战来自其两方面特性,即复杂性和不确定性。
(1)网络大数据的复杂性
网络大数据的复杂性主要体现在数据类型的复杂性和数据结构的复杂性。首先,随着数据类型不断增多,数据采集、清洗、存储和处理的技术需要相应地进行变革。例如,社交网络的发展使得短文本取代长文本,成为网络上最主要的信息传播媒介。当处理这些微博消息、个性签名、个人状态等短文本时,传统的文本挖掘方法,如主题模型、检索算法及语义、情感分析算法会遇到很多困难。
其次,传统意义上的数据对象是结构化数据,能够存储到关系型数据库中。但随着数据产生方式的多样化,特别是互联网的发展,非结构化数据逐渐成为大数据的主流形式。以文本、图像、视频、网页等为代表的数据结构,给数据分析与挖掘工作带来挑战。
(2)网络大数据的不确定性
网络大数据的不确定性主要体现在数据的不确定性和模型的不确定性。首先,原始数据存在数据类型和数据结构上的不确定性,采集得到的数据还存在采集粒度、数据质量等的不确定性。这些数据的不确定性给数据采集、清洗、存储、挖掘和检索等各个环节带来挑战,每个环节几乎都需要采用新的方法应对数据不确定性的挑战。
其次,数据的不确定性要求对数据的处理方式能够提出新的模型方法,并在模型表达能力和模型复杂程度之间找到平衡。从理论上讲,在一定的结构规范下,应将数据的每一种状态都加以刻画,这也是“可能世界模型”的核心思想。但在实际应用中,考虑到计算和存储能力的限制,往往采用简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设等。