【连载•第一话】网络大数据技术与应用(下)

摘 要 简要介绍了网络大数据的概念,分析了运营商网络大数据的构成及带来的挑战,并从网络大数据存储与技术平台、感知与获取、清洗与提炼三个方面对运营商网络大数据技术进行解析,最后对运营商的网络大数据机遇进行了展望。

关键词 大数据 网络大数据 数据清洗 数据存储 数据挖掘

3

运营商网络大数据技术解析

网络大数据技术主要解决三个方面的问题,包括数据如何获取、数据如何处理以及数据如何应用。为解决这三个问题,需具备一个平台和三个能力,即数据存储与计算平台、数据感知与获取能力、数据清洗与提炼能力以及数据价值挖掘能力。

对运营商而言,自有系统所产生的互联网行为日志数据体量已经很大,且具备一定的复杂性;同时还需要结合互联网公开数据和第三方数据来解析自有数据内容和挖掘自有数据价值,因此对平台和能力建设都提出了很高的要求。

3.1

网络大数据存储与计算平台

(1)网络大数据平台的行业格局

分布式文件系统和非关系型数据库是网络大数据存储的主要发展方向。分布式文件系统降低了大体量数据的存储成本,也满足了数据量快速增长时的可扩展性,典型代表是Google的GFS及Hadoop的HDFS。非关系型数据库(NoSql)作为关系型数据库的有益补充,满足了高吞吐访问、多源数据融合和多维数据关联的需求。其中,键值(Key-Value)数据库主要应用于大量数据的高吞吐访问,典型代表是Redis、Voldemort等。列存储数据库主要应用于分布式、可扩展存储场景,典型代表是HBase、Cassandra等。文档型数据库主要应用于Web访问的应用场景,典型代表是MongoDB、CouchDB等。图形数据库主要面向社交网络、推荐系统等包含关系图谱的场景,典型代表是Neo4J、InfoGrid等。

批处理和流处理是网络大数据计算的主要模式。批处理模式主要应用于大规模数据的细致分析与处理,需多台服务器协同完成。例如大规模数据采集后的清洗和预处理环节,或机器学习中的数学模型训练、算法验证等环节。MapReduce模型是最具代表性的批处理模式,Apache Hadoop是MapReduce模型具体架构实现。流处理模式主要应用于大规模数据的实时处理,通常计算不会非常复杂,但对计算速度有较高要求。例如在RTB(Real Time Bidding)实时竞价系统中,精准广告的展示需要在100ms内完成,广告竞价与排名计算就需要应用流处理模式。Twitter的Storm、Yahoo的S4(Simple Scalable Streaming System)以及Linkedin的Kafka是流处理计算模式的典型代表。

(2)运营商的网络大数据平台建设

运营商的网络大数据平台建设需解决几大核心问题。在存储方面,需解决原始数据存储、粗加工数据查询、深加工数据应用这三类应用场景;在计算方面,需解决实时大规模运算、离线大规模运算这两类应用场景。针对上述5类应用场景,运营商的网络大数据平台建设需融合5类存储或计算框架。

快速增长的原始日志数据需要廉价、可靠、高可扩展性的存储解决方案,分布式文件存储系统是全国性数据汇聚平台及各省市数据存储平台的首选。

经过清洗和编码的粗加工数据需要高吞吐访问的解决方案,以满足该类数据在汇集过程中的查询与传输需求。键值(Key-Value)数据库能够提供可监控、高吞吐的查询接口,可满足粗加工数据的存储需求。

深加工数据已完成信息提炼,并封装成数据能力或数据应用,对外提供类似OLAP(On-Line Analytical Processing,联机分析处理)的商业级服务,如行业统计数据、标签数据等。深加工数据的体量中等,增速平稳,但关联性复杂,早期可采用多维关联数据库,如Sql Server的Data Cube;后期可采用图数据库,如Neo4J。

实时大规模运算,一般会伴随在原始数据的采集阶段,如在采集或传输过程中实时完成数据清洗或数据标签提取的工作,通常数据体量较大,但计算复杂度较低,可采用Storm、Spark等流处理模型。

离线大规模运算,一般会出现在原始数据的粗加工、编解码、多源融合及数据仓库入库阶段,通常计算复杂度很高,计算量很大,适合采用批处理计算模型来完成,如Hadoop的MapReduce计算框架。

3.2

网络大数据的感知与获取

(1)互联网公开数据感知与获取

作为网络大数据的典型代表,互联网数据的感知与获取需求,来源于互联网搜索引擎的发展。作为互联网数据感知和获取的基本技术,网络爬虫技术得到了快速发展和广泛应用。

网络爬虫可理解为对互联网非结构化、多层次数据的抓取与处理。针对每一种应用场景,网络爬虫的数据感知与获取方式存在很大差异。例如面向网络舆情的应用场景,网络爬虫主要定期抓取指定社交网站或新闻媒体在指定时间内的长短文本数据,包括个人消息、文章标题、文章正文、评论等信息,并按时间、板块等进行组织;而面向电商零售研究的应用场景,则需要持续抓取电商网站的单品名称、品牌名称、类别名称、价格、交易量、商品参数等信息,并时刻关注这些信息的更新,维持数据库的时效性。

(2)运营商管道数据感知与获取

运营商用户互联网行为日志数据(又称管道数据)的感知与获取,主要采用深度包检测(Deep Packet Inspection,DPI)技术实现。

深度包检测技术是一种基于应用层的流量检测和控制技术,该技术通过深入读取IP包载荷的内容对OSI七层协议中的应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。在管道大数据价值被人们重视之前,深度包检测数据已经在运营商网络体系内进行了广泛部署,主要应用于网络流量中的业务识别、业务控制和业务统计。在互联网和大数据时代,由于管道数据所包含的用户互联网行为可以映射到真实社会中人们的行为和属性,因而具有极大价值,开始受到运营商的重视。

据不完全统计,中国电信在上海市的固网宽带用户每天会产生超过一千亿条互联网行为数据。面对如此大体量的数据,获取应用层的全量上下行数据,如DNS、FTP、SMTP、HTTP、SNMP、Telnet等协议数据,是不切实际的做法。HTTP的上行数据能够以最小代价反映用户的最全量在线行为,因而运营商广泛抓取并分析HTTP GET上行数据,以此来分析用户的互联网行为特征。在移动互联网时代,网站流量大量被App分流,OTT业务盛行。App流量和OTT流量往往无法在HTTP GET上行数据的URL中体现,需要从HTTP POST表单数据中进行提取和分析,这就给运营商的数据感知与获取带来新的挑战。

3.3

网络大数据的清洗与提炼

(1)数据清洗的基本概念

由于数据的多源性、异质性以及采集数据时产生的一些人工错误,网络大数据一般会含有冗余、噪音及缺失,因而需要进行清洗与提炼。数据清洗的质量衡量标准包括:一致性、正确性、完整性和最小性。在某些应用场景下,还存在其他附加的数据质量衡量指标,数据清洗者可以按需选择其中的某些指标加以采用。

数据清洗的整个过程一般应包括数据抽取、转化和装载,使用到的工具一般称为ETL(Extract-Transform-Load)工具。例如对于网络爬虫抓取的Web页面数据,通常包含多种短文本标签、图像、超链接和长文本信息,需根据不同网页内容、不同应用场景,配置不同的清洗规则。

(2)运营商网络大数据的清洗与提炼

运营商的网络大数据经过深度包检测提取,得到了DPI数据。在DPI数据中,用户实际浏览的内容所处的整个页面的URL,才代表用户的真实有效的访问行为,并具有分析价值。在HTTP GET上行流量中,含有大量非页面类型请求和非用户自主产生的请求,例如:浏览器与JS脚本发出非页面类型的请求,以及广告、Frame等非用户自主产生的请求等。这些请求均可视为无效请求,需要从DPI数据中剔除。

数据清洗的意义不仅在于过滤无效请求,保证数据的真实性及稳定性,还能大幅度减少后级数据分析的数据量,减少各系统资源的消耗,减少数据传输的带宽要求,实现资源的高效使用。根据中国电信的DPI清洗系统数据,数据清洗与提炼阶段能够去除高达95%的无用数据。

3.4

网络大数据的价值挖掘

上文中提到了运营商网络大数据的采集和清洗,不仅关注了运营商自有数据,也涉及了互联网公开数据的处理,这是因为只有将运营商数据与其他数据进行融合,才能产生数据价值。

以DPI数据为例,虽然能够覆盖应用层的全部流量,并借助HTTP GET上行数据分析用户的绝大多数网络行为,如网页浏览、电商购物、视频点播、搜索等,但DPI数据中所包含的URL、User Agent等信息还需要借助URL字典、User Agent字典进行翻译和解读,才能映射到人们具体的网页访问行为,即:使用什么设备,在什么操作系统内,通过哪款浏览器浏览了何种网页。URL字典的建设需要借助网络爬虫完成,User Agent字典需要借助第三方公开数据来构建。

在获取网页基本信息的基础上,通过分析网页内的更详尽文本信息,还能够进一步解读人们的行为,如网页浏览的标题、正文,电商购物的品牌、价格,视频点播的电影名称、年代等。这些更深入的数据,必然会带来更大的商业价值。

多源数据融合,除了通过网络爬虫抓取互联网公开数据之外,也可以通过第三方合作实现。例如,运营商通过与金融机构合作,融合双方数据,能够打造更准确高效的征信系统。

4

运营商的网络大数据机遇

通过对自有数据的分析、多源数据的融合,运营商的网络大数据价值挖掘已经开始落地实践,应用于市场研究、精准营销、舆情监控、金融、医疗、教育等领域。

在市场研究领域,基于网络大数据所提供的全样本数据,可以客观、深入、快速地洞察行业趋势、市场行情,可作为传统的基于采样的市场研究方法的有益补充。在精准营销领域,基于对潜在消费者历史互联网数据的分析,推算出其性别、年龄、社会阶层、消费能力、兴趣爱好、购买习惯等特性,使营销更具针对性,从而打造千人千面的精准广告。在舆情监控领域,使用社交网络、人群位置等在线数据,可以准确刻画并预测现实世界人类社会的舆论、迁徙行为,为政府决策提供有力支持。此外,金融领域的个人信用评估、医疗领域的智慧医疗、教育领域的个性化在线教育,都得益于网络大数据的巨大价值。

5

结束语

网络大数据的快速发展,带来了许多机遇和挑战。文中首先介绍了网络大数据的基本概念,描述了其主要构成及挑战。紧接着探讨了运营商网络大数据相关的技术,包括存储与计算平台、感知与获取、清洗与提炼以及价值挖掘4个方面。最后简要介绍了运营商网络大数据的机遇。

总体上,网络大数据的研究还在初期,运营商网络大数据技术与应用还处在探索期,有许多问题亟待解决,也有更多机遇等待发现。

本文为连载

作者:王仿坤

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2016-02-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ThoughtWorks

服务拆分与架构演进|洞见

本文首发于InfoQ: http://www.infoq.com/cn/articles/service-split-and-architecture-evol...

4004
来自专栏数据的力量

干货|互联网运营数据分析必须掌握的十个经典方法

4028
来自专栏WeTest质量开放平台团队的专栏

鲜科技!内部云游戏沙龙分享

云游戏,也叫订制游戏,是在线游戏的一种不只是网页游戏或者是微端游戏,是一种游戏输入,运算,和画面显示分离的技术。目前有2种主要的云游戏形式:基于视频串流的云游戏...

5627
来自专栏FD的专栏

写一篇好的技术文章有多难?

注意:这里所指的技术文章,不是某个问题的相关回答。而是着重于一些知识要点、架构等等,复杂的文章。

962
来自专栏华章科技

如何在三年内快速成长为一名技术专家

工作前三年是职业生涯中成长最快的几年,在这段时间里你会充满激情,做事专注,也容易养成良好的习惯。在我们公司有些同学在前三年中就快速成为某一个领域的技术专家,有些...

792
来自专栏灯塔大数据

干货|互联网运营数据分析必须掌握的十个经典方法

? 眼花缭乱的东西很多,真正派上用场的,却不见得是那些看起来炫酷的。很多方法朴实无华,却解决大量的问题。 下面十个方法都是我这么多年做互联网运营分析时一定会用...

3234
来自专栏DevOps时代的专栏

DevOps 三步工作法之持续反馈的技术与案例

导言 很高兴参与DevOps时代社区的拆书联盟第一季活动,有幸能与几位DevOps大牛一起解读《DevOps Handbook》一书,这本书作者牛,内容也很牛,...

2817
来自专栏Crossin的编程教室

成为优秀程序员的10个有效方法

一个优秀的程序员就是那种即使是过单行道都要往两边看的人。 ——Doug Linder 作为一个在IT行业的软件程序员,每天促使我去上班的动力就是对编程的乐趣和激...

30610
来自专栏祝威廉

为什么需要效率督查团队

上周和杭州某司同学面基,发现我们两同一年毕业,同一年出生,还是老乡,真是颇感意外。本来约好了是聊技术的,结果硬生生的聊成了如何提高团队效率的心得交流会。

1072
来自专栏IMWeb前端团队

前端进阶之路:如何高质量完成产品需求开发

本文作者:IMWeb 陈映平 原文出处:IMWeb社区 未经同意,禁止转载 写在前面 作为一个互联网前端老鸟,这么些年下来,做过的项目也不少。从最初的...

2946

扫码关注云+社区

领取腾讯云代金券