首页
学习
活动
专区
工具
TVP
发布

腾讯大数据的专栏

专栏作者
324
文章
455043
阅读量
124
订阅数
大索引技术,大数据的未来
不管你信也好,不信也好,大数据时代真的来临了,随着Hadoop技术的普及,其生态圈发展的越来越壮大,Hive、Hbase、Spark、Storm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间,攻陷了全部的大数据阵地。 那么传统的关系型数据库的一些思路,真的没有用武之地了么?真的就一去不复返了么?当大数据技术大旗在每个山头摇摆的时候,我们躲在角落里还能做些什么?“索引”,没错,数据库时代的必杀,大数据的利器。 当大数据使用上大索引后有什么好处? 1. 索引技术大幅度的加快数据的检索速度。 2.
腾讯大数据
2023-03-04
2640
从0到1:微信后台系统的演进之路
“ 2个月的开发时间,微信后台系统经历了从0到1的过程。从小步慢跑到快速成长,经历了平台化到走出国门,微信交出的这份优异答卷,解题思路是怎样的?本文由张文瑞,微信后台团队出品。 从无到有 2011.1.21 微信正式发布。这一天距离微信项目启动日约为2个月。就在这2个月里,微信从无到有,大家可能会好奇这期间微信后台做的最重要的事情是什么? 我想应该是以下三件事: 1 确定了微信的消息模型 微信起初定位是一个通讯工具,作为通讯工具最核心的功能是收发消息。微信团队源于广硏团队,消息模型跟邮箱的邮件模型也很有渊
腾讯大数据
2023-03-03
7660
大数据云原生能力成熟度模型,重磅发布!
为了分享过去一年云原生产业联盟(CNIA)在标准建设、评估测试、技术研究、实践合作等方面的工作成果、探索行业最新趋势动态,云原生产业联盟于2023年1月9日举办了2022年度线上年会,发布了“大数据云原生能力成熟度模型”,并进行了标准解读。 云原生时代,数据系统的技术架构正在多样化用户需求的驱动下快速演进。容器、Serverless、CI/CD、Kubernetes等云原生技术与大数据系统的深度融合,可以有效应对海量、异构、实时的用户数据处理请求。充分利用云原生平台能力实现大数据系统的“云原生”转型升级,已
腾讯大数据
2023-01-30
1.6K0
实时湖仓一体规模化实践:腾讯广告日志平台
1. 背景 1.1 整体架构 腾讯广告系统中的日志数据流,按照时效性可划分为实时和离线,实时日志通过消息队列供下游消费使用,离线日志需要保存下来,供下游准实时(分钟级)计算任务,离线(小时级/天级/Adhoc)分析处理和问题排查等基于日志的业务场景。因此,我们开发了一系列的日志落地处理模块,包括消息队列订阅 Subscriber,日志合并,自研 dragon 格式日志等,如下图所示: Subscriber:Spark Streaming 任务,消费实时数据,落地到 HDFS,每分钟一个目录,供下游准实时
腾讯大数据
2022-09-20
1K0
Ozone社区的领航者:腾讯Ozone EC的方案剖析
[导语] EC(Erasure Coding, 纠删码) 是现代分布式存储系统一个重要的能力。它可以保证在相同数据持久度的基础上大幅提高存储空间利用率,对降低存储成本有极为重要的意义。腾讯大数据存储团队全程参与了 Ozone 社区 EC 的设计与开发,并先于社区在内部完成了 EC offline recovery 的开发和测试。本文主要讲解 EC 在 Ozone 中的设计与实现,并讨论其中的利弊权衡。 0.引言 Apache Ozone 做为 Hadoop 生态的下一代分布式存储系统,是 Hadoop 生态
腾讯大数据
2022-08-26
7450
Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践
图片来源:pexels 背景 Firestorm Shuffle是分布式计算框架用来衔接上下游任务的数据重分布过程,在分布式计算中所有涉及到数据上下游衔接的过程都可以理解为shuffle。针对不同的分布式框架,shuffle有几种实现形态: 基于文件的pull based shuffle,如MapReduce、Spark。这种shuffle方式多用于类MR的框架,比如MapReduce、Spark,它的特点是具有较高的容错性,适合较大规模的批处理作业。由于实现的是基于文件的shuffle方案,因此失败
腾讯大数据
2021-11-19
2.8K0
腾讯自研分布式远程Shuffle服务Firestorm正式开源
11月4日,在2021腾讯数字生态大会上,腾讯宣布开源自主研发的分布式远程Shuffle服务Firestorm。该服务的开源不但可以助推分布式计算的云原生部署,还能解决大数据分布式计算过程中的痛点,提升计算资源的利用率。 图片来源:pixabay 在分布式计算领域,Shuffle过程由于存在着磁盘IO随机读写问题,一直是分布式计算任务的性能瓶颈,除了降低计算任务的运行效率,还降低硬件资源的利用率。同时,由于Shuffle过程对于本地磁盘有容量需求(如Spark计算引擎),对于计算引擎的云原生化也制造了
腾讯大数据
2021-11-10
8630
腾讯内部实践分享 | 千节点Alluxio 集群助力游戏 AI 业务
图片来源:Pexels 本文作者:郑兵、毛宝龙、潘致铮 Alluxio 是一个面向 AI 以及大数据应用,开源的分布式内存级数据编排系统。随着大数据和 AI 业务向 Kubernetes 等容器管理平台迁移,将 Alluxio 作为中间层,为数据查询及模型训练等场景加速,成为各厂商的首选方案。  Alluxio 在游戏 AI 离线对局业务中解决的问题可以抽象为:分布式计算场景下的数据依赖问题,传统的数据依赖的解决方式有: 镜像打包,这种方式隔离性比较好,但使用镜像缓存能力有限,数据更新频繁,每次都要重
腾讯大数据
2021-10-18
1.3K0
星火计划 | 面向数据湖的下一代大数据存储——Ozone技术沙龙火热报名中
导语:大数据技术与应用不断演进,数据存储需求愈发多元、复杂,由此催生了许多新的存储系统,以支撑上层业务系统运行,技术生态也日益繁荣。 Ozone就是Hadoop社区推出的新一代分布式存储系统,它能够满足海量小文件存储需求,支持百亿甚至千亿级文件规模的存储,解决了Hadoop分布式文件系统在可扩展性上的缺陷。 去年9月,Apache Hadoop社区正式发布了通过大规模生产落地验证的Ozone 1.0.0版本,在社区引起大量关注。腾讯大数据团队是国内一线互联网公司中最早加入社区的,并且在Ozone 1.0.
腾讯大数据
2021-03-30
5740
Angel-Graph又双叒搞事情,一口气优化六款算法!
导语 Angel是由腾讯自研并开源的高性能分布式机器学习平台,它提供了用于特征工程,模型构建,参数调优,模型服务和AutoML的全栈设施。Angel-Graph作为Angel的通用型图计算引擎,已于今年五月份开源,能够轻松支持十亿级顶点、千亿级边的大规模图计算,并且提供了大量开箱即用的图算法,包括传统图挖掘、表示学习和神经网络相关算法,为支付、推荐、游戏、风控、图谱等多个业务场景提供计算服务。近期,Angel-Graph再次对大家常用的六款表示学习和神经网络学习算法,在算法精细度、可选参数、工程性能等方面
腾讯大数据
2020-08-31
1.7K0
向成熟化迈进 - 腾讯Ozone千台能力突破
背景介绍 腾讯目前在HDFS上存储了海量的数据,但HDFS在可扩展性上的缺陷,以及对小文件的不友好,限制了HDFS在许多场景下的应用。 为了寻找能解决这些问题的存储系统,Ozone走入了我们的视野。Ozone是继HDFS的下一代统一数据湖对象存储系统,数据湖是一种在系统或存储库中以自然格式存储数据的方案,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。 HDFS缺陷 Apache Hadoop HDFS从出现到现在经过10多年的发展,已经到了非常成熟的状态,广泛应用于业界,解决海量文件的存储需
腾讯大数据
2020-07-23
2K0
精品移动应用研发,这些能锦上添花
一直以来,移动应用程序和早期的网站一样经历了类似的变革: 随着连接性和网络功能的提高,移动应用程序越来越多地与程序本身之外的数据和信息源相连接,移动开发变得越来越具有动态性。 而高拓展的应用一直是移动行业的热点,为此,在开发过程中能轻松将最常用的移动功能集成,并使用到应用程序中,能大大提高开发者们的单兵作战能力。 本期云+社区技术沙龙,在全新的移动开发模式下将逐步介绍,如何为移动开发者提供更多的基于云的移动服务。 Tips:分享内容包括不限于移动分析即服务,移动推送即服务,移动计费即服务,移动存储即服务等。
腾讯大数据
2018-05-22
1.7K1
飞起来的大象-Hadoop从离线到在线
时代在变迁,市场在变化,周边的软硬件环境也突飞猛进般的发展,同时企业的业务需求也不断升级,从规模到成本都有较高的要求,这刺激Hadoop生态圈的变革。据AMR研究显示,到2020年Hadoop将拥有502亿美元市场。如此多金诱惑下,各大解决方案提供商对Hadoop生态圈的发力可谓是越来越快,顺应潮流,Hadoop生态圈也更为完善和成熟,更是划分出了子生态圈如Spark。正是在这样一个背景下,Hadoop的顺利度过了2014年。2014业内哪些事情值得关注1)大数据解决方案提供商hortonworks上市。大
腾讯大数据
2018-01-26
9590
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档