<数据猿导读>
中国移动(浙江)大数据专家汤人杰在2016年中国信息通信大数据大会上发表了以“浙江移动大数据平台的践行之路”为主题的演讲。他讲到,浙江移动的平台今年主要是PAAS层的建设,主要是两块,一块是PAAS层的建设,一块是DASS层的建设
数据猿报道,2016年4月20-21日,2016中国信息大数据通信大数据大会在京召开。大会以“开放共享、转型创新”为主题,聚焦通信业大数据产业生态,邀请工信部、院士专家、三大运营商集团及省市大数据相关业务部门领导以及领先的大数据产业领军企业及应用单位代表出席,共同探讨通信业大数据发展带来的产业机遇和挑战。
本次大会主要针对前沿ICT技术与解决方案对运营商大数据能力建设的提升以及业务运营、架构的转型影响,通信业大数据的开放应用以及开放、共享、创新的产业生态等热点话题展开讨论,全景展现运营商大数据能力建设规划与开放应用策略。
本文由“135编辑器”提供技术支持
以下是数据猿现场独家直播“中国移动(浙江)大数据专家汤人杰”的发言实录:
汤人杰:我们看一下浙江移动为什么去年启动大数据平台的建设?它的背景是什么?浙江公司以前有信息技术部和网管中心两大部分,分别建了若干个大数据平台,每个部门都建了若干个,基本每个应用一个。
建了无数多的平台,这里就存在一个很大的问题,第一个数据冗余,可以想象一下光以往的数据一天有100T,固网数据有600多T,地域数据也很多,接口有几千张,我们反复抽取四五遍,质量会不高,数据标准化程度也会很低,这样反过来制约了应用的创新。
因此,我们需要借助云计算,借助Pass技术,把所有的大数据平台整合成一个具备多租户能力的Pass平台。有了这样一个思想以后,我们就进入了我们整个大数据技术的演进和规划。
这里主要讲一下我们的技术,我们从几个层面来考虑,一个是数据的汇聚,我们要从传统的以结构化数据为主转向多结构化。如果真的没有结构的话,任何东西都识别不出来,就算文本也是有结构的,如何从标准的二维表结构展现多种结构的识别,数据的抽取,这是我们在技术构建上要考虑的问题。
另外一块,比如URL,我们如何通过URL最后来获取到用户的行为偏好呢?这里涉及到很复杂的技术,比如通过某种分类的算法,了解这篇文章到底是什么样的语义,包括有些字段语言的识别。另外这只是我们讲的数据的抽取技术,或者数据的爬取技术。数据获取到了怎么去处理?我们数据的处理,运营商大多采用的技术是小型机加存储的方式。你没有很好的横向拓展,因为机器达到顶配了,速度也不够快。解决方案是什么呢?很简单,就一句话,分布式,就是云。
要讲到分布式,我们必须讲CAP理论。在CAP理论里面,我们认为在网络发生分裂的时候,要加个前提条件,在这种条件下,我们CAP只能三者选其二,大多数是选CA的,你选择了P,分区容忍性,必然要放弃一致性。这就带来了什么呢?我们说传统的一种单一的数据处理的架构要转化成三种架构同时针对不同的业务层,比如我们会在数据的知识分布快速的交互式查询的情况下,我们有个APP的数据库。通过扁平化的分布式的架构,来提升数据的处理能力,打破数据存储和数据处理的瓶颈。
这个是我们MPP技术的演进,现在MPP数据库基本是第三种,数据库处理平台,它的结构并不算松散,它更接近于一个底层是分布式系统,上层是一个分布式操作系统,某种意义上可以认为它是一个分布式操作系统。
另外一块,大数据整个分析思维会有一个变化。从传统的样本的分析方法转变到我们对全局数据对特定问题的分析,通过分析,我们会构建一个客户画像,这个客户画像可能是我们很基础的一个共享的模式。同时我们会引入大量的分析算法,除了传统的回归、聚类,包括我们一些传统的分析方法以外,比如会引入时序分析,对用户经过的基站经过时序分析。比如做六度很分析,我们做了两度的交往圈的分析,来分析一些传播的问题。
我们在信息展现上也会做一些突破,用更好的形式,更交互式的,更让人体验更好的形式来进行信息的展现。总的来讲,我们的规划思路就是12个字,数据整合、能力共享、应用创新。实现我们数据统一的开放共享,这个统一的开放共享必然要实现Pass层的资源整合,再构建能力层的开放和应用层的开放。
我们来看平台具体是怎么建设的,浙江移动的平台今年主要是Pass层的建设,主要是两块:一块是Pass层的建设,一块是Dass层的建设。
Pass分了三层,我们共建了一个数据交换中心,包括内部的数据采集和数据趴取,数据进来以后,我们通过数据处理层,数据处理层主要建立了两个大的资源池,一个是在线资源池,一个是离线资源池,在线通过流处理技术,我们做了一些创新,我们用了开源的数据库,把它改造成可以动态的分布式的形态。因为我数据库内存可能不够,结合流计算的技术。在离线资源池主要用了MPP和Hadoop,在上层加了一层数据展现层,读写分析,把分析结果沉淀到上面的数据开放层。
我们今年主要做的就是Pass这一层,把所有的硬件资源,所有的技术组件全部都整合了。我们认为我们底层都是基于容器技术,统一的资源调度,同一套的技术,把资源全部经过多租户的整合。上面我们引入的数据,构建了Dass,是统一的一套数据模式,后续的应用开发基于统一的数据模型,把数据的问题解决了。
应用一定是基于问题的,同时我们有云管理平台,包括调度,包括运维,运维自动化我们参考了蓝鲸。我们内部到底是使用了一些什么样的技术,比如我们是两部分,一个是爬虫,一个是分子检索,流处理平台承载了客流分析,这是政法委要求的。包括我们的精确营销,我们整个Hadoop平台承载了三亿的融客模型,在数据读写分离这一层,我们主要采用了一些多维的数据库。这是我们整体大的数据流向,我们同时支撑在线和离线的数据,包括我们数据挖掘可以同时支持在线和离线。
我们这次做了采集,我们OBM3一共1600多个系统,刚刚讲了,以往的数据一天将近有100T,固网的数据有600多T,地域系统有三十多个系统,固网目前还有一部分没有采集,确实是量太大了,平台需要扩容。
我们在统一建模里面参考了规范,覆盖了参与人、服务、资源、营销管理等七个主题。为对外变现夯实了基础,我们这个平台的建设有如下几个亮点:
第一,我们是在运营商里面首次实现了基于容器技术进行资源隔离的数据中心级资源调度。
第二,我们在运营商里面,在大数据组建上我们首次了完全字段式的数据隔离,整个Pass平台每个租户都是可以实现字段式的数据隔离。我们首次实现了浙江移动三域数据大融合,同时提供了SAAS、Pass、Dass三个层面的平台开放。我们构建了我们的安全网端,和合作方合作,通过一系列的审计,一系列的安全网关,对外输出我们的变现能力。
这是强调我们的运维,我们的运维完全也是实时的,基于流式的数据挖掘。我们接入所有的数据,进行一个数据的传输,我们对数据的指标做了关联分析,是用了机器学习和实时回归的算法,我们预测指标之间的关系,并且分析故障之间的关联关系。这是大数据平台数据资产的架构,数据平台所有的调度和所有的数据,我们有统一的原数据管理库,所有的关系会在管理库统一展现。
这是我们讲了后续演进的技术思路,目前有部分组件还没有纳入动态的调度,我们在考虑将整个大数据和网关支撑打通,实现整体调度。绝大部分国内的互联网公司,哪怕是BAT,包括甚至是谷歌,谷歌资源利用率是最高的,也只有二三十,运营商大部分是十都不到,我们怎么把资源利用率大幅提升。第二我们要推动建立一个物理模型,同时要深化Pass能力,资源可以无缝调度,大数据为什么不可以呢?我们能不能把大数据也实现一键式的分布?能不能引进机器学习,甚至像谷歌一样做深度学习,我们也去利用更好的方法,来解决广告营销推荐的一个准确性的问题。
另外一块,还有安全的问题,我们大量的对外变现应用开始做起来。我们怎么样保证这个数据资产的安全?最后最智慧的是运营体系,一定要用大数据去解决大数据平台的问题。因为以后将来扩展下来,几千上万台机器,你靠现在这种运维模式难以维持,一定用大数据人工智能的方式去自动发现问题,甚至是自愈。
后续将如何引进第三方进行迈向大数据的生态,在大数据汇聚里面,我们会研究和实现多数据源,引入多方的数据,以大数据的形式对外提供,实现各方的数据深维和增值。在数据转换方面,我们和第三方合作,在EPI识别、选址应用等方面提供优质的组件,在大数据变现方面,我们携手第三方的公司,以大数据为基础,与移动一起参与社会化大数据的运营,积极拓展行业应用,实现大数据变现,树立大数据的标杆企业形象。
谢谢!
来源:数据猿(www.datayuan.cn)