前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「嘉年华观会」Oceanus流式湖仓探索,弹性降本方案

「嘉年华观会」Oceanus流式湖仓探索,弹性降本方案

原创
作者头像
用户9295575
发布2024-09-12 10:46:18
290
发布2024-09-12 10:46:18

在2024腾讯全球数字生态大会开发者嘉年华线上直播中,观看了腾讯云流计算oceanus构建流式湖仓的介绍,随笔记录下。

背景

近年来随着数字化的加速发展,企业对数据的实时处理和分析需求日益迫切。实时数据已经成为驱动业务创新,提升竞争力的核心要素。然而传统的批处理方式时效性差、数据孤岛、难以扩展等问题,无法满足现代企业对实时洞察的迫切需求。

Oceanus-流式湖仓的探索

流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。

流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。能够帮助企业实时捕捉、处理和分析海量数据。从而实现业务决策的快速响应,提升运营效率,发掘新的增长机会。

传统上,用户会选用Lambda架构来搭建数据分析的链路。Lambda架构是比较稳定的流批数据处理的架构。让离线和实时的数据走单独的链路处理,离线链路的数据一般存储在Hive等离线处理的引擎中,并使用Spark进行多层数据的转换。实时链路的数据会单独处理,一般使用Flink+Kafka的实时分层链路。最终数据会写入在线数据库和数仓中。这种架构可以实现数据库秒级的延迟,但也存在一些问题。这种链路不够灵活,kafka无法保存较长时间的数据,没办法实现数据的分析和挖掘。这种链路成本比较高,upsert-kafka依赖于本地的状态存储。Lambda架构模式的实时数据和离线数据都是走单独的链路,造成数据存储的加倍。实时计算和离线存储的逻辑也需要单独开发。

Oceanus 将实时和离线的链路进行统一。统一了数据存储,满足了以下两个要求:一是离线对数仓的数据读取,OLAP需求的分析,二是对写入的数据可以产出完整Flink兼容的changelog,可以接入到Flink作业中进行进一步的流式处理。腾讯推出了Streaming lceberg,它是基于lceberg生态的流式湖仓解决方案。

亮点:

  • 打破数据孤岛:打破了数据存储的壁垒,将离线和实时数据统一存储,避免了数据重复存储。
  • 简化运维:通过统一的数据存储和计算引擎,简化了系统运维管理。
  • 完整的changelog:生成完整的changelog,使得Flink等流处理引擎能够对数据进行增量处理。
  • 高效的更新:基于LSM Tree存储引擎,支持高效的主键更新和部分列更新。
  • 兼容lceberg生态:用户可以无缝迁移现有的lceberg查询作业。
  • 支持多种查询引擎:Spark SQL,Trino/Presto等多种查询引擎。
  • 大表优化:提高数据写入速度。
  • 压缩编码和分区优化:减小存储空间,提高查询性能。

应用场景:

  • 游戏
  • 出行
  • 教育
  • 电商

以下是一个电商行业实时订单交易数据分析场景。

Oceanus-弹性降本方案

企业面临的痛点:

  • 困难的资源管理:弹性作业导致资源浪费、用户通常需要大量时间给作业调优,实现精细化资源管理。
  • 复杂的运维管理:Flink平台的运维管理工作繁琐复杂,资源监控、作业告警、日志探索、作业事件、性能优化,需要专业技术人员进行操作和维护。
  • 弹性扩展困难:难以根据业务负载进行弹性扩展,无法满足业务快速增长的需求。

Oceanus根据以上痛点,推出了新型弹性降本方案

  • 支持弹性收缩,配合作业扩缩容灵活利用资源。
  • 低成本:弹性包年包月集群
  • 集群和平台特性:自动扩缩容、弹性伸缩、细粒度资源
  • 专家资源和作业调优:算子级别资源配置、专家作业调优
  • 运行时的监控,指标监控和事件监控
  • 智能告警,指标告警和事件告警
  • 异常诊断:一键快捷诊断和黑窗诊断
  • 支持快捷回滚:支持快照管理,从快照恢复作业
  • 日志:支持实例、时间、关键字检索

总结

在2024腾讯全球数字生态大会开发者嘉年华活动中,学习到了很多黑科技,丰富了自己的知识,激发了对技术的探索和思考,获得了很多宝贵的经验和见解。非常感谢腾讯的嘉年华活动,希望越办越好,秉持开放兼容的精神,相互学习探讨,共同合作。加油!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
  • Oceanus-流式湖仓的探索
  • Oceanus-弹性降本方案
  • 总结
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档