腾讯大数据的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

腾讯大数据的专栏

专栏成员

328

文章

479787

阅读量

125

订阅数

天穹DOP 在腾讯广告经营数仓场景的应用实践

存储缓存实践数据腾讯

■ 腾讯广告经营数仓是腾讯广告打造的数据分析和数据服务平台，它提供了包括数据运营分析、广告优化分析在内数据分析支持，以及数据可视化服务。经营数仓积累了大量的广告效果数据、客户管理信息和产品工具数据，为腾讯内众多的数据分析和运营分析用户提供便捷高效的 SQL 取数服务。为了保障数据查询服务的稳定与高效，该数仓不仅采用了Spark引擎，还部署了Presto集群，目的是能够根据用户提交的SQL的特点，智能选择最合适的查询引擎。

腾讯大数据

2024-06-27

2360

大索引技术，大数据的未来

大数据存储容器镜像服务 hive spark

不管你信也好，不信也好，大数据时代真的来临了，随着Hadoop技术的普及，其生态圈发展的越来越壮大，Hive、Hbase、Spark、Storm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间，攻陷了全部的大数据阵地。那么传统的关系型数据库的一些思路，真的没有用武之地了么？真的就一去不复返了么？当大数据技术大旗在每个山头摇摆的时候，我们躲在角落里还能做些什么？“索引”，没错，数据库时代的必杀，大数据的利器。当大数据使用上大索引后有什么好处？ 1. 索引技术大幅度的加快数据的检索速度。 2.

腾讯大数据

2023-03-04

2980

从0到1：微信后台系统的演进之路

微信网站存储消息队列 CMQ 版 svn

“ 2个月的开发时间，微信后台系统经历了从0到1的过程。从小步慢跑到快速成长，经历了平台化到走出国门，微信交出的这份优异答卷，解题思路是怎样的？本文由张文瑞，微信后台团队出品。从无到有 2011.1.21 微信正式发布。这一天距离微信项目启动日约为2个月。就在这2个月里，微信从无到有，大家可能会好奇这期间微信后台做的最重要的事情是什么？我想应该是以下三件事： 1 确定了微信的消息模型微信起初定位是一个通讯工具，作为通讯工具最核心的功能是收发消息。微信团队源于广硏团队，消息模型跟邮箱的邮件模型也很有渊

腾讯大数据

2023-03-03

9790

大数据云原生能力成熟度模型，重磅发布！

大数据编程算法运维文件存储存储

为了分享过去一年云原生产业联盟（CNIA）在标准建设、评估测试、技术研究、实践合作等方面的工作成果、探索行业最新趋势动态，云原生产业联盟于2023年1月9日举办了2022年度线上年会，发布了“大数据云原生能力成熟度模型”，并进行了标准解读。云原生时代，数据系统的技术架构正在多样化用户需求的驱动下快速演进。容器、Serverless、CI/CD、Kubernetes等云原生技术与大数据系统的深度融合，可以有效应对海量、异构、实时的用户数据处理请求。充分利用云原生平台能力实现大数据系统的“云原生”转型升级，已

腾讯大数据

2023-01-30

1.7K0

实时湖仓一体规模化实践：腾讯广告日志平台

spark 日志数据存储数据湖文件存储

1. 背景 1.1 整体架构腾讯广告系统中的日志数据流，按照时效性可划分为实时和离线，实时日志通过消息队列供下游消费使用，离线日志需要保存下来，供下游准实时（分钟级）计算任务，离线（小时级/天级/Adhoc）分析处理和问题排查等基于日志的业务场景。因此，我们开发了一系列的日志落地处理模块，包括消息队列订阅 Subscriber，日志合并，自研 dragon 格式日志等，如下图所示： Subscriber：Spark Streaming 任务，消费实时数据，落地到 HDFS，每分钟一个目录，供下游准实时

腾讯大数据

2022-09-20

1.1K0

Ozone社区的领航者：腾讯Ozone EC的方案剖析

node.js 大数据大数据存储存储编程算法

[导语] EC(Erasure Coding, 纠删码) 是现代分布式存储系统一个重要的能力。它可以保证在相同数据持久度的基础上大幅提高存储空间利用率，对降低存储成本有极为重要的意义。腾讯大数据存储团队全程参与了 Ozone 社区 EC 的设计与开发，并先于社区在内部完成了 EC offline recovery 的开发和测试。本文主要讲解 EC 在 Ozone 中的设计与实现，并讨论其中的利弊权衡。 0.引言 Apache Ozone 做为 Hadoop 生态的下一代分布式存储系统，是 Hadoop 生态

腾讯大数据

2022-08-26

8720

Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践

spark serverless 大数据存储 sql

图片来源：pexels 背景 Firestorm Shuffle是分布式计算框架用来衔接上下游任务的数据重分布过程，在分布式计算中所有涉及到数据上下游衔接的过程都可以理解为shuffle。针对不同的分布式框架，shuffle有几种实现形态：基于文件的pull based shuffle，如MapReduce、Spark。这种shuffle方式多用于类MR的框架，比如MapReduce、Spark，它的特点是具有较高的容错性，适合较大规模的批处理作业。由于实现的是基于文件的shuffle方案，因此失败

腾讯大数据

2021-11-19

3.1K0

腾讯自研分布式远程Shuffle服务Firestorm正式开源

开源存储大数据分布式

11月4日，在2021腾讯数字生态大会上，腾讯宣布开源自主研发的分布式远程Shuffle服务Firestorm。该服务的开源不但可以助推分布式计算的云原生部署，还能解决大数据分布式计算过程中的痛点，提升计算资源的利用率。图片来源：pixabay 在分布式计算领域，Shuffle过程由于存在着磁盘IO随机读写问题，一直是分布式计算任务的性能瓶颈，除了降低计算任务的运行效率，还降低硬件资源的利用率。同时，由于Shuffle过程对于本地磁盘有容量需求(如Spark计算引擎)，对于计算引擎的云原生化也制造了

腾讯大数据

2021-11-10

9320

腾讯内部实践分享 | 千节点Alluxio 集群助力游戏 AI 业务

node.js 分布式压力测试存储游戏

图片来源：Pexels 本文作者：郑兵、毛宝龙、潘致铮 Alluxio 是一个面向 AI 以及大数据应用，开源的分布式内存级数据编排系统。随着大数据和 AI 业务向 Kubernetes 等容器管理平台迁移，将 Alluxio 作为中间层，为数据查询及模型训练等场景加速，成为各厂商的首选方案。 Alluxio 在游戏 AI 离线对局业务中解决的问题可以抽象为：分布式计算场景下的数据依赖问题，传统的数据依赖的解决方式有：镜像打包，这种方式隔离性比较好，但使用镜像缓存能力有限，数据更新频繁，每次都要重

腾讯大数据

2021-10-18

1.4K0

星火计划 | 面向数据湖的下一代大数据存储——Ozone技术沙龙火热报名中

大数据 hadoop 存储分布式

导语：大数据技术与应用不断演进，数据存储需求愈发多元、复杂，由此催生了许多新的存储系统，以支撑上层业务系统运行，技术生态也日益繁荣。 Ozone就是Hadoop社区推出的新一代分布式存储系统，它能够满足海量小文件存储需求，支持百亿甚至千亿级文件规模的存储，解决了Hadoop分布式文件系统在可扩展性上的缺陷。去年9月，Apache Hadoop社区正式发布了通过大规模生产落地验证的Ozone 1.0.0版本，在社区引起大量关注。腾讯大数据团队是国内一线互联网公司中最早加入社区的，并且在Ozone 1.0.

腾讯大数据

2021-03-30

5990

Angel-Graph又双叒搞事情，一口气优化六款算法！

编程算法数据结构 angel linux 存储

导语 Angel是由腾讯自研并开源的高性能分布式机器学习平台，它提供了用于特征工程，模型构建，参数调优，模型服务和AutoML的全栈设施。Angel-Graph作为Angel的通用型图计算引擎，已于今年五月份开源，能够轻松支持十亿级顶点、千亿级边的大规模图计算，并且提供了大量开箱即用的图算法，包括传统图挖掘、表示学习和神经网络相关算法，为支付、推荐、游戏、风控、图谱等多个业务场景提供计算服务。近期，Angel-Graph再次对大家常用的六款表示学习和神经网络学习算法，在算法精细度、可选参数、工程性能等方面

腾讯大数据

2020-08-31

1.8K0

向成熟化迈进 - 腾讯Ozone千台能力突破

存储 node.js 大数据 http jdk

背景介绍腾讯目前在HDFS上存储了海量的数据，但HDFS在可扩展性上的缺陷，以及对小文件的不友好，限制了HDFS在许多场景下的应用。为了寻找能解决这些问题的存储系统，Ozone走入了我们的视野。Ozone是继HDFS的下一代统一数据湖对象存储系统，数据湖是一种在系统或存储库中以自然格式存储数据的方案，它有助于以各种模式和结构形式配置数据，通常是对象块或文件。 HDFS缺陷 Apache Hadoop HDFS从出现到现在经过10多年的发展，已经到了非常成熟的状态，广泛应用于业界，解决海量文件的存储需

腾讯大数据

2020-07-23

2.1K0

精品移动应用研发，这些能锦上添花

一直以来，移动应用程序和早期的网站一样经历了类似的变革：随着连接性和网络功能的提高，移动应用程序越来越多地与程序本身之外的数据和信息源相连接，移动开发变得越来越具有动态性。而高拓展的应用一直是移动行业的热点，为此，在开发过程中能轻松将最常用的移动功能集成，并使用到应用程序中，能大大提高开发者们的单兵作战能力。本期云+社区技术沙龙，在全新的移动开发模式下将逐步介绍，如何为移动开发者提供更多的基于云的移动服务。 Tips：分享内容包括不限于移动分析即服务，移动推送即服务，移动计费即服务，移动存储即服务等。

腾讯大数据

2018-05-22

1.7K1

飞起来的大象-Hadoop从离线到在线

数据库 hadoop 大数据 spark 存储

时代在变迁，市场在变化，周边的软硬件环境也突飞猛进般的发展，同时企业的业务需求也不断升级，从规模到成本都有较高的要求，这刺激Hadoop生态圈的变革。据AMR研究显示，到2020年Hadoop将拥有502亿美元市场。如此多金诱惑下，各大解决方案提供商对Hadoop生态圈的发力可谓是越来越快，顺应潮流，Hadoop生态圈也更为完善和成熟，更是划分出了子生态圈如Spark。正是在这样一个背景下，Hadoop的顺利度过了2014年。2014业内哪些事情值得关注1）大数据解决方案提供商hortonworks上市。大

腾讯大数据

2018-01-26

9990

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态