CIO学习:深入了解腾讯大数据平台

目前腾讯数据平台部的技术团队规模和结构是怎样的?

目前我们数据平台部共有200多人。整个数据平台是按照基础平台、核心应用、产品包装和质量监控的思路分为四部分:

数据中心,负责建设管理腾讯大数据基础平台;

  精准推荐中心,负责研发落地以数据挖掘为核心的大数据应用;

  产品中心,负责大数据产品的策划和运营;

  质量中心,负责我们的质量监控与保障。

  能简单说说腾讯目前的数据情况么?

  腾讯的数据情况,得从不同的业务说起。其中主要包括以下5种:

  即时通信QQ活跃帐户数达到8.29亿;QQ智能终端月活跃帐户数5.21亿

  即时通信QQ最高同时在线帐户数达到2.06亿

  “微信和WeChat”合并月活跃帐户数达到4.38亿

  “QQ空间”月活跃帐户数达到6.45亿;QQ空间智能终端月活跃帐户数4.97亿

  增值服务付费注册帐户数为8800万

  从这些数据可以看到,腾讯每天的数据量是一个天文的数字,目前最高日接入消息条数10000亿 ,日接入数据量200TB,并发分拣业务接口10000个。

  能不能详细介绍一下这个平台架构的架构设计思路?

  其实这些你都可以从腾讯目前的发展看出来,主要考虑的是数据开放、专业化、成本三点。

  数据开放:使得公司数据集中形成数据开放,在保障数据安全性的前提下,提供自助化服务平台,从人肉服务模式转向平台自动化服务方式,帮助BG数据分析人员通过自助服务的方式,降低人工成本,满足快速增长的需求。

  专业化:从提供大量独立的系统/工具转变向提供集成、一体化、自动化数据开发平台服务。来源各个业务块数据进行整合和深入挖掘产生用户画像,为业务提供有价值的服务,并且快速孵化更多的数据应用。

  成本与性能:优化平台存储和计算方案、优化的数据模型和算法、去除重复计算和存储;通过建设大规模集群,形成规模效应,提升平台能力并降低成本;随着平台上的数据量、用户数、任务数不断增长,每个新用户/新任务带来的新增成本不断降低,成本优势可以不断放大。

  能不能详细介绍一下这个平台架构的构建过程?

  腾讯大数据平台现在主要从离线和实时两个方向支撑海量数据接入和处理,核心的系统包括TDW、TRC和TDbank。

TDW是我们从2009年开始自研的腾讯分布式数据仓库,我们基于开源的hadoop+hive架构做了大量优化,包括兼容商业数据库语法和hadoop单点消除及可扩展性提升等。从2011年正式发布上线到2013 年初,TDW完成了对腾讯公司内部几乎全业务的覆盖,成为腾讯最大的离线处理平台,目前接入的数据量已达到百P级别,并伴随业务的发展和新业务的出现不断快速增长。

  2010年起,随着业务对实时数据处理需求的增强,我们开始进行新的平台规划与建设:我们基于storm研发了腾讯实时计算平台TRC,我们将社区的storm用java重新改写以提升稳定性和效率,并且使它运行在我们的统一资源管理平台GAIA上,进一步提升集群效率和扩展能力;为了方便用户使用,我们为TRC开发了SQL和Pig用户接口,并且在此基础之上进一步提供了可视化拖拽式开发环境,使业务开发实时计算逻辑更加方便;目前TRC每天提供几万亿次实时计算能力,在以效果广告为代表的趋势预测、交叉分析、实时统计等领域的应用上取得了非常好的效果。

  与此同时我们在数据接入方面研发了实时数据接入和分发系统TDbank,这个系统使业务数据采集延迟从之前的天级别,缩短到当前的秒级别;我们主要对TDbank做了异构数据源适配,跨城公网传输,数据高一致性保证,分布式消息队列等;目前TDBank每天收集的数据量接近10000亿条,这些数据主要输送给TDW和TRC,分别作离线分析和实时计算,可以说,这是我们成功支撑海量实时和离线处理的前提。

  简单说说TOD和MTA吧。TOD,Tencent Open Data,基于腾讯在业界领先的大规模计算集群,提供数据采集、自助加工、任务调度等能力的云端大数据解决方案。它的优势是:

  不用采购任何物理设备,即开即用。

  不用担心数据量膨胀的时候无法扩展。

  只需要开发业务逻辑,其他部署、运行、监控都交给TOD

MTA是腾讯云分析是专业的移动应用数据运营平台,支持iOS和Android。开发者可以方便地通过嵌入统计SDK,实现对移动应用的全面监测,实时掌握产品表现,准确洞察用户行为。腾讯云分析的优势:

  实时多维:多维度交叉分析,运营有的放矢

  用户画像:用户的兴趣,年龄,性别,职业尽在掌握

  云发布:一键发布数十个Android应用市场

  秒级实时:秒级实时,即时捕捉瞬息万变

  运维监控:实时监控耗时,错误,放心运维

  游戏模型:针对手游玩家的生命周期分析

  开发中遇到了那些坑,你是怎么迈过去的?使用什么样的硬件资源支撑了这个平台?

  坑确实有不少,影响最大的主要有三个:

  1、腾讯数据量“大”的坑:腾讯的用户和产品数量都比较多,数据量大,数据分析的复杂度高,对底层技术平台的要求自然很高。如此大量的数据和复杂分析,每天要高效、稳定的在我们的数据平台上运行,对我们的平台技术提出了很大挑战。我们在系统的容灾、监控、问题处理与恢复方面做了大量工作,以确保系统不会出现问题,或者是在做重大变更时,对业务的影响要尽可能的少。为了达到这个目标,在设计系统时,我们要做到无单点故障,所有的模块都是分布式的,我们现在基本上都做到了。

  2、开源软件的坑:为了构建多样化的平台,我们也积极吸收开源软件进行快速原型搭建,但是真正在用的时候,会发现很多问题,有的问题可能只有腾讯这样的数据规模才能遇到。我们过去几年,花费了大量的人力物力,修复开源软件中的bug,优化它的性能,并基于腾讯的业务特点进行定制。

  3、成本的坑:当我们的大数据系统逐渐成熟好用时,业务的数据存储和计算需求也开始暴增,随之而来的平台的成本压力也非常大。平台在过去几年做了大量优化成本的工作,包括差异化压缩、使数据相对文本有20倍的压缩比、引入Hadoop Raid技术、使用估值算法代替精确计算节省计算资源等,使整个平台的单位成本大幅度下降。

  我们的硬件采用公司定制的PC Server,规模超过8000台。每台配备2T*12 STAT硬盘、64GB内存和双路32核CPU。需要提到的是,我们硬件资源是通过GAIA调度系统管理的,TDW、TRC等系统不直接申请硬件机器资源,而是向GIAI申请需要的CPU、内存等资源。

  对你们来说,目前面对的最大挑战是什么?

  对我们来说最大的挑战更多的是在技术层面,我们必须快速跟上,还要力争引领技术的更新和换代,以应对互联网业务的飞速变化,还有对于大数据日渐深入的应用带来的更高要求,未来相信大数据的技术能力对于业务发展的影响会越来越大。

  我们的定位始终是以支持公司内部的业务为主,但逐步把我们的大数据能力开放给社会服务于更多的人也是我们的责任,所以在市场方面我们的挑战其实不是来自于商业层面,而是如何能让开放的覆盖面更广,让更多人分享我们提供的大数据服务,所以如何找到更多用户的痛点,如何让我们的服务更好地适配更多的用户需求,这是我们持续面对的一项挑战!

  另外随着大数据在社会各行各业的影响越来越广泛深入,国家也开始对于大数据的相关政策给予更多的关注,我们一方面会在这些政策制定的过程中贡献自己的经验和建议,同时也会积极响应和配合国家一些相关政策进行落地执行。目前来看政策的制定只是让大数据发展的步伐走得更稳健更安全,短期来看也许会让我们在应用大数据的产品模式上放慢一些探索的步伐,长期来说相信不会对大数据的发展带来太大的挑战。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-10-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

亚马逊Web服务是如何成功的

据说商业就是一种买卖双方之间的公允价值交换。在我们看到一如云计算这样令人兴奋且具备变个性的产物时,很容易忘了这一点,然而它仍旧遵循商业逻辑的规则。基础架构...

34960
来自专栏IT大咖说

DevOps在传统企业的落地实践及案例分享

摘要 在传统支撑模式无法满足业务价值快速交付要求的情况下,传统企业应该如何引入DevOps能力进行突破创新,本次分享将从以下几个方面具体探讨DevOps如何与传...

39590
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙回顾|技术债

技术债 活动时间:2017年11月23日 QQ视频分享 活动介绍:TMQ在线沙龙第三十四期分享 本次分享的主题是:技术债 有72位测试小伙伴报名参加活动! 想...

23560
来自专栏ThoughtWorks

如约而至|2017年3月期技术雷达正式发布!

技术雷达是什么 技术雷达是由 ThoughtWorks 技术战略委员会(TAB)经由多番正式讨论给出的最新技术趋势报告,它以独特的雷达形式对各类最新技术的成熟度...

27730
来自专栏大数据挖掘DT机器学习

【解析】数据分析之如何看懂数据

对于数据,有一个共识就要会看数据,通过合理及透彻的分析来驱动产品,运营及市场策略的调整。但是这些知识看数据的中级阶段,高级阶段则是通过庞大的多维度的数据分...

31570
来自专栏PPV课数据科学社区

【职场】排名前20位的大数据职位及其职责,你能胜任么?

大数据在全球范围内的IT就业市场占有越来越重要的影响。根据Gartner公司提供的数据,截至到2015年将有440万的IT工作来支持大数据,仅美国就会有...

32850
来自专栏理论坞

如何做别人眼中专业的交互设计师

最近发现网上可以学习的交互知识和如何去做交互设计的内容还是比较匮乏,所以想将自己这些年做互金行业的一些交互知识经验贡献出来,希望给一些刚入行的朋友看到能有所收获...

19030
来自专栏ThoughtWorks

企业实施DevOps的七大挑战|洞见

DevOps这个词在近年来可谓大火。从2014年底我开始给一些企业做持续交付/DevOps相关的评估和咨询,似乎每个企业都表示想要推行DevOps,或者说他们正...

29860
来自专栏ytkah

微信指数是怎么调取数据来源的

微信正式上线“微信指数”,但微信指数数据从哪里来?目前官方是这么个说法:1、捕捉热词,看懂趋势;2、监测舆情动向,形成研究结果;3、洞察用户兴趣,助力精准营销...

1.9K50
来自专栏人称T客

那些年,我们一起误解的公有云

编译 T客汇 Felix 每个公司都有不同的要求,因此云解决方案的种类越来越多,比如:私有云、公有云、混合云和多重云,这些方案每个都各自具有自己独特的管理和服务...

37050

扫码关注云+社区

领取腾讯云代金券