数据湖计算 DLC(DLC)

最近更新时间:2024-04-16 18:04:11

我的收藏
WeData 支持集成 DLC 存算分离计算引擎,提供 DLC 数据库/表管理功能,并且能够实现敏捷高效的数据湖分析计算,基于 Spark、Presto 能力使用标准 SQL 即可完成对象存储服务(COS)及多源数据库的联合分析计算。

使用背景

腾讯云数据湖计算 DLC(Data Lake Compute,DLC)提供了敏捷高效托管的数据湖分析与计算服务,用户无需进行传统的数据分层建模,大幅缩减了海量数据分析的准备时间,有效提升了企业数据敏捷度。

使用限制

限制类型
限制说明
数据湖计算 DLC
目前 WeData 支持 DLC 类型库表的数据管理与分析查询和计算任务。
目前 DLC 支持的计算引擎版本如下:
Spark SQL:SuperSQL-S 1.0
Spark 作业:Spark 2.4、Spark 3.2
Presto:SuperSQL-P 1.0
WeData 功能
WeData 数据开发中支持的 DLC 任务类型包括:DLC SQL、DLC Spark。
WeData 支持创建DLC表和DLC函数。

使用流程

在 WeData 中使用 DLC 的主要流程包括以下步骤:

准备工作

准备类别
操作说明
参考链接
数据湖计算 DLC
为了保证在 WeData 中顺利使用 DLC 相关的建表和数据开发、数据探索功能,需要保证 DLC 集群满足基本的配置。例如,在 WeData 中使用 DLC 的 Spark 作业引擎,需要在 DLC 中创建 Spark 作业引擎,并且给对应的用户开通引擎的使用权限。
创建和管理 DLC 引擎:数据引擎说明
WeData
绑定 DLC 的集群,从 DLC 集群中获取最新的集群配置。
默认情况下新建的项目会自动使用动态密钥跟 DLC 互通。
数据权限与引擎权限管理:DLC权限管理


任务开发

创建工作流

任务开发基于数据工作流编排实现计算任务的流程化执行,创建计算任务前需要创建数据工作流,然后在工作流中编排计算任务运行流程。

创建 DLC 节点

WeData 基于 DLC 引擎进行任务开发,将 DLC 集群与 WeData 中的项目进行绑定后,会在 WeData 中接入 DLC 系统数据源,详情请参考DLC引擎接入。目前编排空间的 DLC SQL 仅支持 DLC 的系统源。

任务开发

完成 DLC 引擎与 WeData 项目绑定后,在已创建的数据工作流中创建 DLC 支持的计算任务类型,在任务节点的配置过程中,使用 DLC 提供的系统数据源进行任务开发、调试。

任务提交

使用 DLC 系统源数据配置调试无误后,保存对应的计算任务,再将计算任务所在的工作流提交发布后,即可在运维中心调度运行。

后续操作

DLC 任务开发完成后,可以在 WeData 进行 DLC 元数据管理、任务运维监控及数据质量监控,保证 DLC 数据能够正常产出;可以在数据探索功能中进行多源联合查询与数据分析。