管中窥豹:腾讯大数据平台

‍‍‍‍腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。

‍‍ 下面这个图是腾讯的技术架构图:‍‍‍‍‍‍

‍‍‍‍整个系统相对比较简单,主要有以下几大组件组成。

‍‍TDBank(Tencent Data Bank):数据实时收集与分发平台。将数据处理系统同数据源解耦,基于“发布-订阅”模型的分布式消息中间件,它起到了很好的缓存和缓冲作用,系统类似kafka,目前的资料不清楚,是否是kafka改造而来?

TDW(Tencent distributed Data Warehouse):腾讯分布式数据仓库。主要支持海量数据的的离线存储和计算,TDW集群总设备8400台,单集群最大规模5600台,总存储数据超过100PB,日均计算量超过5PB,日均Job数达到100万个。TDW是基于Hive优化的,主要是从易用性和性能上做了优化,HIVE的性能再优化针对小数据无能为力。所以后面腾讯研究方向是HBASE和spark。

TRC是基于开源的Storm深度定制的流式处理引擎,用JAVA重写了Storm的核心代码。‍‍‍‍为了解决了资源利用率和集群规模的问题,重构了底层调度模块,实现了任务级别的权限管理、资源分配、资源隔离。‍‍结果集存储在HBASE和Postgre中,用传统的Postgre主要是解决HADOOP update性能低的问题。

‍‍ Gaia,名字挺吓人,实际上基于YARN,自研Sfair (Scalable fair scheduler)调度器,‍‍‍‍优化调度逻辑,提供更好的可扩展性,并进一步增强调度的公平性,提升可定制化,将调度吞吐提升10倍以上。‍‍

‍‍ 整个数据平台业务上主要支撑的有精准推荐,实时多维分析,秒级监控,腾讯分析、信鸽等。‍‍

  1. 从互联网整个行业来看,腾讯在技术上相对来说并不开放,公开的资源较少,代码开源的就更少,所以能分析的资料非常少。腾讯走的是基于成熟开源的软件然后根据自己的需求深度重构的思路,和阿里差不多。
  2. 从腾讯使用HIVE/STORM来看,腾讯起步比较早,选用HIVE/STORM,当前业界比较火的又是spark。
  3. 腾讯的系统主要还是支撑内部需求,开放比较少,希望腾讯后面可以将优化思路和业界广泛交流下,最好当能是能开源一些项目,为社区贡献力量。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2014-05-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

一份更好的云灾难恢复计划指南

现如今,灾难恢复即服务已然正在迅速成为企业利用云服务来解决灾难恢复挑战的一种理想的方式。 对于存储专业人员来说,灾难恢复仍然是一项持续性的挑战。因为与许多其他I...

33311
来自专栏SDNLAB

如何将SDN和自动化嵌入下一代云数据中心

云计算时代,企业需要新型的数据中心网络架构。而新型网络架构主要指的就是借助软件定义网络和网络自动化平台来打造数据中心网络架构。硬件厂商形象深入人心的...

2614
来自专栏区块链技术指北

加密数字货币和传统分布式系统共识机制

这是「区块链技术指北」的第 13 篇文章。 如果对我感兴趣,想和我交流,我的微信号:Wentasy,加我时简单介绍下自己,并注明来自「区块链技术指北」。同时我会...

2805
来自专栏云计算D1net

云数据库在企业应用中的优势

一、云计算概述 云计算是近几年来最热门的互联网词汇之一。自从1983年由Sun Microsystems公司提出“网络是电脑”的概念,到2006年亚马逊...

2664
来自专栏SDNLAB

混合云的杀手级应用:数据保护

对于企业来说,数据保护是将大量数据存储在云端的关键原因。最终所有数据都需要备份和归档,很多IT组织将云计算视为本地存储的最具成本效益的替代方案。 ? 这一策略的...

34711
来自专栏SDNLAB

SDN在5G网络中扮演重要角色

在很多方面,4G网络已经逐渐落后。新的数据交互模式和越来越多的连接设备是迫使运营商寻求无线数据通信下一步演进的两大动力。首个5G网络预计将在2020年出现。 ?...

2729
来自专栏云计算D1net

人们应该了解的20个亚马逊云服务

1836
来自专栏EAWorld

【超详解PPT】元数据驱动的微服务架构(下)

上次分享了两个部分:微服务架构需要元数据,微服务与元数据的关系,那么微服务中的元数据中具体如何应用,有哪些应用场景?我们接下来看一下——微服务中元数据的价值...

2693
来自专栏cloudskyme

云计算读书笔记(一)

云计算的概念 云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。 云的核心理念就是资源池。 为...

3096
来自专栏云计算D1net

应对计算需求突增 云爆发只是泡沫?

虽然云爆发的概念听起来不错,但是将突然增加的计算需求转移到公有云中仍然存在诸多问题。 由于只需在真正使用时才支付费用,因此云爆发这种方式引发了很多人对于公有云...

3179

扫描关注云+社区