专栏首页腾讯技术工程官方号的专栏腾讯云大数据产品中心总经理刘煜宏:企业全域数据体系建设(附完整PPT)

腾讯云大数据产品中心总经理刘煜宏:企业全域数据体系建设(附完整PPT)

背景:5月23-24日,以“焕启”为主题的腾讯“云+未来”峰会在广州召开,广东省各级政府机构领导、海内外业内学术专家、行业大咖及技术大牛等在现场共议云计算与数字化产业创新发展。腾讯云大数据产品中心总经理刘煜宏在24日下午的AI大数据专场论坛,介绍了在大数据时代背景下,腾讯是如何打造全域数据体系的。

今天我们的论坛名字叫AI大数据,我们前面的嘉宾讲的都是AI,我主要讲讲大数据。AI确实很厉害,能够帮助各行各业解决不同场景的很多问题,如果说AI是个武器,那大数据就是弹药,如果没有了弹药,那么武器也很难发挥该有的功效。

我今天的主题叫《全域数据体系建设》,什么叫全域数据体系?大家理解可能是不一样的。有一横一纵的两个理解,一个是所有的行业、所有领域的整合,比如说举个例子,像旅游大数据,它可能包含了文化、交通、餐饮、住宿、保险等行业,全部整合在一起,这是全域大数据的概念。也有一个纵向的概念,比如我们从数据的生命周期来看,数据从我们业务的在线系统里面产生,然后流转到我们的分析系统,比如大数据平台,或者数字仓库里面;然后再到应用平台比如AI应用平台里面做各种各样的应用,最后回到我们的在线系统,形成一个循环,这也是一个全域数据体系。

我们怎么建设全域数据体系的呢?大家都知道,腾讯其实有很多种业务的类型,有支付、社交、游戏等等。这些数据怎么样能整合到一起呢?我们从十年前开始做大数据,当时我们就想着我们要把腾讯所有业务数据整合在一起。

当然这不是一个很容易的事情,非常困难,数据怎么样用,怎么采集进来,进来以后怎么存,存了以后怎么管理,管理之后怎么用。大家都知道,腾讯的数据很多,数据形态是不一样的。比如有些数据比较齐全,有些业务连日志都不写。我们要拿数据,就要动业务的在线系统。大家知道腾讯代理很多韩国或者其他地方的游戏,当我们发现数据不全的时候,我们想改,业务说找合作方,找韩国人等一两年,甚至可能开发团队都解散了,经常会有这种问题。数据质量是参差不齐的,这是我们遇到的巨大的困难。

还有一个困难,我们其实面临着人才的短缺。我们原来是做业务系统过来做,大家都不懂大数据。我相信很多企业面临着和我们一样原来遇到过的问题。

现在回过头来看,我们基本上都解决了这些问题。从技术上讲,腾讯所有业务的数据都在这里汇聚,从技术上,这些数据是互通的。但是从业务逻辑上又是隔离的,是很安全的,但只要有授权,随时可以访问得到。大家可以看一下,这是目前为止整个大数据平台数据量。我们平台每天收到有13万亿条数据,平台上各种实时计算超过3.5万亿次/天,我们的资源调度系统为了支撑离线任务每天要启动1.5亿次的容器。我们数据量超过400PB。为了支撑这么大的体量,我们用了3万多台机器支撑。我们的梦想算是已经实现了,可见要实现这个梦想难度还是很大的,花了我们将近10年,消耗了不少青春,投了很多人,花了不少硬件资源去做。

接下来我想从数据生命周期的角度分享一下我们刚刚提到的全域数据:在线系统、分析系统、数据应用三个环节的经验。大家知道一般业务系统的在线系统跟我们的分析系统数据是隔离的,在线系统是一套数据库,为了分析又要建另外一套数据仓库。现在仍然很多业务是这样做的。我们前两年开始尝试,希望把在线系统和分析系统做一下融合,我们研发了一个系统叫TBase,这是一个New SQL HTAP分布式数据库,希望把在线事务处理和离线分析系统的数据库统一。现在腾讯内部包括微信支付也在用这套数据库。另外TBase也已经发布,通过腾讯云开放出来给大家用。这个数据库支持OLTP和OLAP的融合,在TP上每分钟能达到300万次的事务处理,AP的分析性能也比业界标杆高5倍左右。在线和分析系统的融合应该算是目前数据库发展的趋势之一,也是我们的经验。

第二个环节,我们的大数据平台主要为了支撑分析系统,这里面最困难、最突出的就是刚才提到的数据治理的问题。我们那么多业务,很多类型,业务区别很大,每一个业务对数据的理解和使用都是不一样的。数据是一种资产,这种资产非常重要,所以我们一定要保障好数据资产在我们平台里面的安全和质量,不能错,不能丢。数据从哪里来?流向哪里?数据和数据之间的关系是什么样子的,血缘和关系我们都要搞清楚。

腾讯内部业务是很庞大的,也很独立的,我们是怎么把以前数据不规范比较乱做到现在比较有序、有效治理的状态,我有三点经验可以分享。第一,贴身服务。我们花了很长时间梳理数据,花了差不多三年时间,帮每个事业群做系统迁移,我们派人坐到他们身边,一个个业务帮他们啃骨头,帮他们梳理,迁移报表。第二,我们建立一套实时数据采集平台,我们从数据的源头开始采集数据,这样就能控制数据质量,跨过很多中间环节,我们自己制定各种数据的标准。第三,我们建立一套平台给他们用,我们提供很强大的计算资源。而这里我们汇聚了很多其他不同业务的数据。一个业务想接入我们的平台,想享受这种数据可以互通的红利,享受着我们这么庞大的资源支撑。他就要接入我们,我们制定规范,让他必须遵循规范、遵循标准。这是我们做数据治理的三点体会。

分析系统后面就是我们的应用,腾讯那么多业务,每一个企业都想做个性化的应用,想做个性化的推荐,包括内容、广告的推荐,游戏里面还有个性化的道具推荐。每一个业务都想自己做,那我们做了里面最基本的东西,我们把所有的用户相关的数据汇到一起,我们从底层用户画像做起,我们建立一套以用户为中心的用户画像,支撑上层的业务发展。底层基础要打牢,上面的应用才能支持得好。这个用户画像现在支撑着腾讯所有效果广告,带来精准效果提升每年超过10%。不要小看10%,这是大概每年都有几十亿的收入,还是很可观的。一定要把底层数据基础打牢,才能更好做上面的应用。我们要变成一种数据服务,现在这个服务也是通过腾讯云开放出去,叫数字营销,大家都可以尝试一下使用(他二哥注:大家可以点击公众号菜单的“技术平台”-“应用”,找到这些数据服务)。

回顾大数据平台发展,我们是从离线的计算到实时计算,再到机器学习这三个阶段,从数据层面来讲,我们都是一个个分散的系统,这一个做存储,另外一个系统做cache,又另外一个做多维查询分析,都是分散的、孤立的,每个数据不互通。后来我们从数据采集、到存储到可视化,把所有数据整合在一起,变成套件的东西,然后又把这个套件变成一个平台,可以让大家接入,变成一个服务化的东西,大家可以调用我们的服务。在应用方面,我们也切合AI的浪潮,我们在上面做了机器学习的平台,向着智能化应用的发展。原来我们是通用的数据平台或者机器学习的平台,但现在和行业联合得越来越紧密,我们根据垂直行业不同场景化需求,给他们出各种解决方案。

整个发展的主线路就是从零散到整合,从通用平台到贴合场景化。

现在我们把这种平台也开放出来,我们把数据采集、分析挖掘到可视化,整个链条所有平台我们通过腾讯云开放出来了,我们希望能够加速大家在数据处理方面的效率,能够帮助大家在全域体系建设方面能够使用它。

我们在2016年7月份也是云+未来峰会上我们发布一个大数据产品,就叫大数据套件——TBDS。刚才提到以前我们很缺乏人才,很多企业也面临这样的问题,想做大数据,但是没有大数据人才。这个产品就是可以让你们没有大数据人才也能用上大数据平台,这是这个产品的初衷。最近我们更新了很多,把最重要的做数据治理的功能做了很多的完善,也是今年更新到我们的版本里面。我们在上面做了很多服务,做了很多工具,提升大家使用的效率,值得一提的是,我们不只支持腾讯内部的版本,还兼容业界比较流行CDH和HDP的版本。

除了平台开放出来,在腾讯云云端上,如果大家留意会发现很多数据服务,不只是平台,还有数据的服务。比如移动分析服务,会分析很多APP的行为,还有反欺诈的服务,还有一些其他的数字营销的服务,LBS地理位置的服务。这是一种数据服务,可以给到用户使用的服务。云端的用户可以用自己的数据和我们数据服务做一个整合,来建设自己的全域的数据体系,这样不只是你自己的数据,还可以和别的数据做融合、跨界。

平台开放了,我们的数据服务也开放了,在云端,其实不只是平台和服务,还有生态。我们很多行业比如能源、交通、教育等等,这里汇聚了所有行业的用户以及为这个行业服务的开发者。这里面真的是一个繁荣生态社会,每一个客户在这里都能找到跨界的可能。比如能源,可以和交通、气象服务结合起来,更好服务于客户。就像腾讯内部一样,我们建了一个大数据平台,让腾讯内部所有产品之间结合,比如游戏和视频产品结合起来,这样能够产生更多的创新。在我们的云端,大家也是可以这样,找到跨界的机会,能够产生更多创新的可能,挖掘更多数据价值。

最后这是一个例子,昨天上午的圆桌论坛上,中国银行的张行长也提到,中国银行利用腾讯的一些数据分析的能力,利用我们的平台能力,结合了一些公共的网络空间的数据服务,结合了一些公共的舆情的数据服务,去升级他们的风控系统,在他们的风控系统上做各种各样的创新,加固他们的风控平台。

这就是我们利用平台利用我们的数据服务结合传统很多行业的场景,产生的一个化学的反应,这样的案例会越来越多。我们也希望通过我们的平台能力,通过我们的数据服务再结合各位手上很多业务的场景,能够产生不一样的效果,能够带来很多创新。我们也希望能够帮助大家发现更多的数据的价值,这也是我们做大数据的梦想。

这就是我的分享的内容,谢谢大家。

全域数据体系构建(腾讯技术工程:公众号).pptx

本文分享自微信公众号 - 腾讯技术工程(Tencent_TEG)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文

    导语:本文将分组介绍计算机视觉顶级会议 CVPR 中腾讯 AI Lab 的重点研究方向和入选论文。

    腾讯技术工程官方号
  • 威胁情报大会直击 | 企业IT部王森:腾讯企业终端安全管理最佳实践

    ? 8月29日,2018网络安全分析与情报大会在北京新云南皇冠假日酒店正式开幕,本次大会由国内威胁情报领军企业微步在线主办,十数位来自政府、央企、金融、互联网...

    腾讯技术工程官方号
  • 高效大数据开发之 bitmap 思想的应用

    ? 作者:xmxiong,PCG 运营开发工程师 数据仓库的数据统计,可以归纳为三类:增量类、累计类、留存类。而累计类又分为历史至今的累计与最近一段时间内的累...

    腾讯技术工程官方号
  • 重磅发布:腾讯云大数据与AI新品「数智方略2.0」

    在云+未来峰会 AI与大数据专场,腾讯云一口气发布了EMR(弹性MapReduce)、文智公众趋势分析、智能推荐、大数据可视交互系统(RayData)、DI-X...

    云加社区
  • 学机器学习有必要懂数学吗?深入浅出机器学习与数学的关系

    小黑,Datawhale团队成员,秦时明月十年铁粉,本科就读于山西大学,保研至天津大学并硕博连读,现为2018级博士,研究方向:脑机接口。

    用户1564362
  • 如何用大数据发现纽约最糟糕的停车位?

    大数据文摘
  • 历时3个月,我们是如何为一个开源项目集资300万美元的?

    长期以来,开源项目一直都面临着融资难的问题。PostHog很幸运地获得了大量的资金,并希望跟大家分享我们的经历,以帮助其它那些很酷的项目也能早日启动。

    CDA数据分析师
  • 评《大数据时代》一点笔记和一些琐碎的感想

    《大数据时代》是国外大数据研究的先河之作,本书作者维克托•迈尔•舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等...

    机器学习AI算法工程
  • 利用PySpark对 Tweets 流数据进行情感分析实战

    想象一下,每秒有超过8500条微博被发送,900多张照片被上传到Instagram上,超过4200个Skype电话被打,超过78000个谷歌搜索发生,超过200...

    磐创AI
  • web 22款响应式的 jQuery 图片滑块插件

    响应式(Responsive)设计的目标是要让产品界面能够响应用户的行为,根据不同终端设备自动调整尺寸,带给用户良好的使用体验。这篇文章收集了22款优秀的响应式...

    用户4962466

扫码关注云+社区

领取腾讯云代金券