多模态智能数据湖 TCLake 旨在通过统一数据底座,实现结构化、半结构化及非结构化数据的一体化管理,支持批流等 workload 的高效融合,促成多模态数据的深度联动,实现 Data+AI 时代多模态数据湖统一存储及管理。
批流一体表格式
Apache Iceberg 兼容:基于 Apache Iceberg 无侵入式拓展,满足批流一体场景同时兼容 Iceberg 原生使用方式及社区丰富引擎生态。
近实时湖仓能力升级:相比 Apache Iceberg 中流式写入的更新数据没办法在下游进行流式消费,TCIceberg 在支持流式写入的同时,支持按照 CDC(Change Data Capture)格式读取流式增量数据,并提供可扩展的合并过程满足部分列更新、预聚合等场景。
性能增强:通过自动分桶机制提升了更新场景下的 merge-on-read 性能。
智能的数据优化:TCIceberg 支持对表上的写入及查询操作实时监控,根据监控信息自动按需调度优化资源,提升优化质量及效率。
统一数据目录
多模态数据目录:内置统一多模态数据目录服务,涵盖表(Table)、非结构化卷(Volume)、模型(Model)、视图(View)、函数(Function)等,为 Data+AI 数据资产提供全生命周期的统一数据目录管理。
外部资产接入:除内置数据目录外,可接入分布在其他系统、异构数据源的目录(如 MySQL、Hive、Doris 等),使用户可以在统一视图下能无缝访问和管理 TCLake 与外部系统数据资产,打破数据孤岛。
统一权限管理:在所有数据目录上抽象基于 RBAC 的统一权限模型,封装标准化接入层,构建覆盖数据全生命周期的权限管控体系。
开放引擎生态(逐步接入中)
腾讯云生态体系:与腾讯云 EMR、 DLC、THouse 等引擎生态体系集成,支持以上产品内置主流引擎开箱即用。
开源生态体系:支持 Spark 、Flink 等多种开源生态大数据计算引擎,Ray 、TensorFlow 等主流 AI 训练框架。
Serverless 免运维
全托管服务:全托管开箱即用数据目录及存储服务,用户无需维护底层复杂系统架构。
智能数据管理:自动触发小文件合并、过期快照清理、数据生命周期管理等任务,无需人工干预。