前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >管中窥豹:腾讯大数据平台

管中窥豹:腾讯大数据平台

作者头像
大数据和云计算技术
发布2018-03-08 10:27:28
3K1
发布2018-03-08 10:27:28
举报

‍‍‍‍腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。

‍‍ 下面这个图是腾讯的技术架构图:‍‍‍‍‍‍

‍‍‍‍整个系统相对比较简单,主要有以下几大组件组成。

‍‍TDBank(Tencent Data Bank):数据实时收集与分发平台。将数据处理系统同数据源解耦,基于“发布-订阅”模型的分布式消息中间件,它起到了很好的缓存和缓冲作用,系统类似kafka,目前的资料不清楚,是否是kafka改造而来?

TDW(Tencent distributed Data Warehouse):腾讯分布式数据仓库。主要支持海量数据的的离线存储和计算,TDW集群总设备8400台,单集群最大规模5600台,总存储数据超过100PB,日均计算量超过5PB,日均Job数达到100万个。TDW是基于Hive优化的,主要是从易用性和性能上做了优化,HIVE的性能再优化针对小数据无能为力。所以后面腾讯研究方向是HBASE和spark。

TRC是基于开源的Storm深度定制的流式处理引擎,用JAVA重写了Storm的核心代码。‍‍‍‍为了解决了资源利用率和集群规模的问题,重构了底层调度模块,实现了任务级别的权限管理、资源分配、资源隔离。‍‍结果集存储在HBASE和Postgre中,用传统的Postgre主要是解决HADOOP update性能低的问题。

‍‍ Gaia,名字挺吓人,实际上基于YARN,自研Sfair (Scalable fair scheduler)调度器,‍‍‍‍优化调度逻辑,提供更好的可扩展性,并进一步增强调度的公平性,提升可定制化,将调度吞吐提升10倍以上。‍‍

‍‍ 整个数据平台业务上主要支撑的有精准推荐,实时多维分析,秒级监控,腾讯分析、信鸽等。‍‍

  1. 从互联网整个行业来看,腾讯在技术上相对来说并不开放,公开的资源较少,代码开源的就更少,所以能分析的资料非常少。腾讯走的是基于成熟开源的软件然后根据自己的需求深度重构的思路,和阿里差不多。
  2. 从腾讯使用HIVE/STORM来看,腾讯起步比较早,选用HIVE/STORM,当前业界比较火的又是spark。
  3. 腾讯的系统主要还是支撑内部需求,开放比较少,希望腾讯后面可以将优化思路和业界广泛交流下,最好当能是能开源一些项目,为社区贡献力量。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-05-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
消息队列 TDMQ
消息队列 TDMQ (Tencent Distributed Message Queue)是腾讯基于 Apache Pulsar 自研的一个云原生消息中间件系列,其中包含兼容Pulsar、RabbitMQ、RocketMQ 等协议的消息队列子产品,得益于其底层计算与存储分离的架构,TDMQ 具备良好的弹性伸缩以及故障恢复能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档