首页
学习
活动
专区
工具
TVP
发布

腾讯大数据的专栏

专栏作者
323
文章
444930
阅读量
124
订阅数
Hadoop Raid-实战经验总结
分布式文件系统用于解决海量数据存储的问题,腾讯大数据采用HDFS(Hadoop分布式文件系统)作为数据存储的基础设施,并在其上构建如Hive、HBase、Spark等计算服务。 HDFS块存储采用三副本策略来保证数据可靠性,随着数据量的不断增长,三副本策略为可靠性牺牲的存储空间也越来越大。如何在不降低数据可靠性的基础上,进一步降低存储空间成本,成为腾讯大数据迫切需要解决的问题。 我们对facebook版本的hadoop raid分析发现,还有很多细节需要优化改进,本文就hadoop raid存在的问题进行探
腾讯大数据
2018-01-29
2K0
Storm上的实时统计利器-easycount
背景 Storm是TRC(腾讯实时计算)平台的核心组件。与Hadoop不同,storm之上没有像hive,pig之类的解放应用开发人员效率的工具。开发原生的storm应用必须掌握storm的api,开发门槛高,调试困难,效率低下。 EasyCount(SQL on strom)是构建在storm之上的一套实时计算系统。应用开发人员只需通过配置定制化的脚本来完成业务逻辑的描述,能够快速实现各种实时统计需求,降低使用门槛,提升开发效率。 系统设计与实现 上图是EC系统的架构图。用于描述用户业务逻辑的SQL
腾讯大数据
2018-01-26
1.1K0
精准推荐平台现网引流测试初探
前言 大数据时代,海量流量和数据是变现的源泉。腾讯拥有最多样的用户数据,社交、聊天、游戏、听音乐、看电影、逛电商,等等,有巨大的挖掘空间,个性化精准推荐无疑是一把开矿的钥匙。TEG-数据平台部基于“数据+算法+系统”的设计理念,海量数据实时采集、流式计算、实时建模、实时推荐,构建海量、实时、精准的个性化精准推荐平台。建设这套能承载300亿次/天的推荐请求,300000次/天多维交叉计算的分布式实时计算平台是一项浩大工程,保障这套平台质量也是非常大的挑战。 本文将重点介绍现网引流测试方法在TEG-数据平台部
腾讯大数据
2018-01-26
1.8K0
HBase在腾讯大数据的应用实践
前言随着腾讯产品与技术的发展,几乎任何一个与用户相关的在线业务的数据量都在亿级别,每日系统调用次数从亿到百亿,对海量数据的高效插入和快速读取变得越来越重要。而传统关系型数据库模式固定、强调参照完整性、数据的逻辑与物理形式相对独立等,比较适用于中小规模的数据,但对于数据的规模和并发读写方面进行大规模扩展时,RDBMS性能会大大降低,分布式更为困难。 为什么会选择HBase? 高可靠性。HBase是运行在Hadoop上的NoSQL数据库,它的数据由HDFS做了数据冗余,具有高可靠性。同时TDW(腾讯分布式数据仓
腾讯大数据
2018-01-26
1.4K0
分布式高可靠消息中间件-Hippo
前言 随着大数据产品的日渐丰富以及数据应用场景需求的增加,TDBank作为腾讯大数据平台的数据接入环节的位置也越发显得重要(见下图)。截止目前为止TDBank日均接入数据已经超过2W亿条每天(约600TB/天),并且数据量还在持续不断上升。Tube 作为整个数据接入体系的存储层发挥着重要作用。Tube作为一个面向高吞吐高性能的分布式消息中间件,其性能及稳定性在万亿级数据体量下经受住了考验。 但对于一些高价值、高敏感度的数据时,我们亟需一个高可靠高可用的消息中间件。(Tube在极端场景下,比如物理宕机无法恢
腾讯大数据
2018-01-26
2K1
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档