首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

腾讯 PB 大数据计算如何做到秒

Presto 在腾讯天穹 SuperSQL 大数据生态中,定位为实现秒大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。...日均处理数据量 PB ,P90 查询耗时为 50s,全面提升各业务数据实时分析性能,有效助力业务增长。...的多数据源访问能力,天穹 Presto 支持对接了 Hive、Iceberg、MySQL 等数据源,且为了更好地支持内部的业务,我们也扩展开发了内部的 TDW Connnector,支持访问腾讯内部的数据仓库数据...Connector 功能增强 腾讯天穹实时数仓-数据湖分析系统 DLA 使用了 Iceberg 作为表的数据组织格式,用户数据入湖后,可以通过 Presto Iceberg Connector 获得秒的查询体验...4.4 Optimized Repartitioning 天穹 Presto 每天的业务查询 Exchange 的数据量达到了上百 PB 级别,为了提升 Repartitioning 阶段的性能,我们在生产环境中启用了社区的

1.5K21

揭秘Robinhood扩展和管理PB规模Lakehouse架构

Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现,Robinhood 的数据团队如何基于 Apache Hudi 和相关 OSS 服务来处理数 PB...规模的指数增长。...实施 Robinhood 数据Lakehouse架构 Robinhood 数据 Lakehouse 生态系统支持超过一万个数据源,处理数 PB 数据集,并处理数据新鲜度模式(从近实时流到静态)、数据关键性...需要能够根据需要删除整个 PB 级数据湖库中单个用户的所有 PII。这必须快速、高效地完成,并且不能影响其他用户。...具体来说: • 基于 CDC 的分层管道是在 Apache Hudi 之上使用 Debezium 构建的,可有效扩展以支持 10,000 多个数据源,并在指数增长的情况下处理多 PB 数据流。

12910

天穹SuperSQL如何把腾讯 PB 大数据计算做到秒

Presto在腾讯天穹SuperSQL大数据生态中,定位为实现秒大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。...日均处理数据量PB,P90查询耗时为50s,全面提升各业务数据实时分析性能,有效助力业务增长。...Presto的多数据源访问能力,天穹Presto支持对接了Hive、Iceberg、MySQL等数据源,且为了更好地支持内部的业务,我们也扩展开发了内部的TDW Connnector,支持访问腾讯内部的数据仓库数据...Iceberg Connector功能增强 腾讯天穹实时数仓-数据湖分析系统DLA使用了Iceberg作为表的数据组织格式,用户数据入湖后,可以通过Presto Iceberg Connector获得秒的查询体验...4.4  Optimized Repartitioning  天穹Presto每天的业务查询Exchange的数据量达到了上百PB级别,为了提升Repartitioning阶段的性能,我们在生产环境中启用了社区的

1.8K41

PB海量数据服务平台架构设计实践

基于PB海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论: 实践背景 该数据服务平台架构设计之初...由于时间范围条件跨度需要支持几年(如1~3年),计算依赖的数据量级在TB甚至PB级别,所以一定要通过预计算的方式压缩数据,并能提供支持快速计算的方式。...技术选型 技术选型,主要从如下几个方面进行考虑: 数据存储 原始数据存储 数据量级达到PB,所以,作为整个数据服务平台的最初输入数据,我们称为数据服务平台的原始数据,后续简称原始数据,这些原始数据是直接存储在...分布式关系数据存储 对于PB的数据,想要在数据服务平台中快速为用户提供数据服务,根据业务特点,存储在适合快速加载、快速计算的分布式数据存储系统中。...这里面,稍有点复杂的是,作业是一调度,任务是二调度,但是要保证属于同一个作业的任务能够按照先后顺序被调度运行。

2.1K60

雅虎PB云对象存储COS实践:选择Ceph,放弃Swift

本文介绍了雅虎PB云对象存储COS解决方案的实践,解释了选择Ceph放弃Swift的原因,部署的架构及其实现,耐用性和延迟方面的优化以及未来的研发方向等。...在与Flicker的合作下雅虎已经对该方案进行了多PB的初始部署。并且计划在2015年把COS作为多租户的托管服务,继续通过支持Flicker、雅虎邮件和Tumblr来把COS的部数量提升十倍。...未来COS将存储数百PB的数据! COS用的是Ceph COS的部署中应用到了Ceph存储技术。...经过多次软件的调整和试运行之后,现在每个Ceph集群的部署大约能达到3PB的原始数据,并且无论在进行通常操作还是在做故障恢复的时候都能提供可预测的延迟。...规模上:我们已经初始部署了一个多PB解决方案。在2015年,我们计划将其增长10倍以上,把它用到邮件,视频,Tumblr等,实现像在Flickr那样的增长。

1.8K50

PB大规模Elasticsearch集群运维与调优实践

XX公司运维老大:你说的这些别的厂商也有,我就问一个问题,我们现在要存储一年的游戏日志,不能删除数据,每天就按10TB的数据量算,一年也得有个3PB多的数据,这么大的数量,都放在SSD云盘上,我们的成本太高了...v; 发现大量的"shard-started"任务在执行中,任务优先是"URGENT", 以及大量的排在后面的"put mapping"的任务,任务优先是"HIGH";"URGENT"优先比"HIGH..."优先要高,因为大量的分片从旧的节点迁移到新的节点上,造成了索引创建的任务被阻塞,从而导致写入数据失败。...但是因为"put settings"任务的优先也是"HIGH", 低于"shard-started"任务的优先,所以更新该参数的操作还是会被阻塞,ES报错执行任务超时。...在上述的场景4-7中,我们花费大量的精力去解决问题和优化使用方式,保证ES集群能够稳定运行,支持PB级别的存储。

1.5K30

PB大规模Elasticsearch集群运维与调优实践

XX公司运维老大:你说的这些别的厂商也有,我就问一个问题,我们现在要存储一年的游戏日志,不能删除数据,每天就按10TB的数据量算,一年也得有个3PB多的数据,这么大的数量,都放在SSD云盘上,我们的成本太高了...v; 发现大量的"shard-started"任务在执行中,任务优先是"URGENT", 以及大量的排在后面的"put mapping"的任务,任务优先是"HIGH";"URGENT"优先比"HIGH..."优先要高,因为大量的分片从旧的节点迁移到新的节点上,造成了索引创建的任务被阻塞,从而导致写入数据失败。...但是因为"put settings"任务的优先也是"HIGH", 低于"shard-started"任务的优先,所以更新该参数的操作还是会被阻塞,ES报错执行任务超时。...在上述的场景4-7中,我们花费大量的精力去解决问题和优化使用方式,保证ES集群能够稳定运行,支持PB级别的存储。

1.8K94
领券