管中窥豹:腾讯大数据平台

‍‍‍‍腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。

‍‍ 下面这个图是腾讯的技术架构图:‍‍‍‍‍‍

‍‍‍‍整个系统相对比较简单,主要有以下几大组件组成。

‍‍TDBank(Tencent Data Bank):数据实时收集与分发平台。将数据处理系统同数据源解耦,基于“发布-订阅”模型的分布式消息中间件,它起到了很好的缓存和缓冲作用,系统类似kafka,目前的资料不清楚,是否是kafka改造而来?

TDW(Tencent distributed Data Warehouse):腾讯分布式数据仓库。主要支持海量数据的的离线存储和计算,TDW集群总设备8400台,单集群最大规模5600台,总存储数据超过100PB,日均计算量超过5PB,日均Job数达到100万个。TDW是基于Hive优化的,主要是从易用性和性能上做了优化,HIVE的性能再优化针对小数据无能为力。所以后面腾讯研究方向是HBASE和spark。

TRC是基于开源的Storm深度定制的流式处理引擎,用JAVA重写了Storm的核心代码。‍‍‍‍为了解决了资源利用率和集群规模的问题,重构了底层调度模块,实现了任务级别的权限管理、资源分配、资源隔离。‍‍结果集存储在HBASE和Postgre中,用传统的Postgre主要是解决HADOOP update性能低的问题。

‍‍ Gaia,名字挺吓人,实际上基于YARN,自研Sfair (Scalable fair scheduler)调度器,‍‍‍‍优化调度逻辑,提供更好的可扩展性,并进一步增强调度的公平性,提升可定制化,将调度吞吐提升10倍以上。‍‍

‍‍ 整个数据平台业务上主要支撑的有精准推荐,实时多维分析,秒级监控,腾讯分析、信鸽等。‍‍

  1. 从互联网整个行业来看,腾讯在技术上相对来说并不开放,公开的资源较少,代码开源的就更少,所以能分析的资料非常少。腾讯走的是基于成熟开源的软件然后根据自己的需求深度重构的思路,和阿里差不多。
  2. 从腾讯使用HIVE/STORM来看,腾讯起步比较早,选用HIVE/STORM,当前业界比较火的又是spark。
  3. 腾讯的系统主要还是支撑内部需求,开放比较少,希望腾讯后面可以将优化思路和业界广泛交流下,最好当能是能开源一些项目,为社区贡献力量。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2014-05-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据和云

SQL审核与开发的博弈

昨晚在恩墨微信讲堂分享了一个主题:来自真实世界的SQL优化案例。这是在Oracle 38周年纪念大会上我分享的主题,在这里和更多的朋友分享。 在分享之后,很多朋...

2734
来自专栏飞总聊IT

谷歌又傻X之BigQuery ML

最近工作忙,又努力在写干活,没怎么关注互联网行业的发展。周末好不容易补补课,就发现了谷歌在其非常成功的云产品BigQuery上发布了BigQuery ML。说白...

1062
来自专栏java一日一条

程序员如何提一个好问题

提出好的问题是在编写软件时的一个非常重要的技能。这么多年来我对此也算略有小成。这里有一些我用着觉得很棒的指导方针!

713
来自专栏数据和云

Oracle嘉年华:SQL审核的源头管控

在刚刚结束的Oracle技术嘉年华大会上,"SQL审核"这个概念被屡次提及,成为一个重要的核心关键词。云和恩墨的技术专家罗海雄和去哪儿网的技术专家王竹峰分别做了...

2324
来自专栏PPV课数据科学社区

数据科学领域的职位划分以及职责技能

随着数据科学领域的招聘信息越来越多,范围也越来越广.Datacamp根据最新的数据科学相关招聘信息,全面的了解各个行业之间数据科学领域每个职位角色之间的差异,以...

3166
来自专栏服务端技术杂谈

Shopify发展史

Shopify的创始人是个滑雪爱好者,对当时存在的一些电商平台不满意最而自己建站,希望通过自己的网站售卖滑雪用品。

683
来自专栏CSDN技术头条

2017年数据库技术盘点

在数据库领域,回顾2017这一年,精彩纷呈,热点不断,而且不乏标志性的事件发生。 如Oracle提出的自治数据库这样的概念,把数据库技术带入一个新世界。其实AI...

3095
来自专栏沃趣科技

数据库驱动企业互联网架构转型

现今几乎每个大型技术峰会,都离不开互联网金融,企业数字化转型话题。国内外大型云计算独角兽企业,例如阿里云、Amazon、微软Azure等云计算供应商更是提供一站...

631
来自专栏Java学习网

程序员如何提一个好问题

开始 我实际上是那种总是会问出愚蠢问题或“不好”问题的大信徒。我一直在问人们一些愚蠢并且完全可以通过谷歌搜索或搜索代码库解决的问题。大多数时候我都不愿意自己去搜...

2664
来自专栏杨建荣的学习笔记

关于职业生涯(r10笔记第53天)

下午在看Python的一本书的时候,突然脑袋里冒出了很多的想法。而且看着看着想起了很多以前的学习经历,这可能是一个悟道的开始吧。这么说吧,悟性是一个人学...

3419

扫码关注云+社区