标准引擎配置指引

最近更新时间:2024-05-11 16:32:31

我的收藏
数据湖计算 DLC 为您提供两类引擎:标准引擎和 SuperSQL 引擎,具体区别可参考以下表格或详见 数据引擎介绍。您可以根据实际业务诉求,选择合适的引擎进行使用。如选择标准引擎,您可根据本文档进行配置及使用。
 引擎类型
可选类型
主要特点
使用约束
选购建议
标准引擎
spark presto
一体化 Spark:标准 Spark 引擎可执原生语法:Spark/Presto 社区原生语法,学习、迁移成本低
使用灵活:支持 Hive JDBC 及 Presto JDBC
一体化 Spark:标准 Spark 引擎可执行 SQL及 Spark 批任务
需购买 接入点
1. 需使用 Spark/Presto 原生语法。
2. 希望购买一个 Spark 引擎完成批作业及离线 SQL 任务。
3. 希望使用 Hive JDBC 及 Presto JDBC。
SuperSQL 引擎
sparkSQL spark 作业 presto
统一语法:同一套语法适用于Spark 及 Presto 引擎
支持联邦查询
需学习 SuperSQL 统一语法 SQL/批任务场景建议购买对应类型引擎
1.希望使用 Spark + Presto 统一语法。
2.需要使用联邦查询。
注意:
1. 购买前,请确认您的账号是否已在 CAM 中开通财务权限。
2. 资源无法跨地域使用,购买前请确认当前地域是否正确。

标准引擎配置指引

配置标准引擎包括创建引擎网络、购买接入点、购买引擎三个主要步骤。在完成标准引擎配置后,您即可在 DLC 数据探索中使用标准引擎,此外针对 Spark 标准引擎,如果有多租户或任务隔离需求,您另可在配置用于资源分配与隔离的标准引擎资源组,具体指引如下:

第一步:创建引擎网络

引擎网络基于私有网络(Virtual Private Cloud,VPC)进行构建,为网络下的计算集群和接入点分配在引擎网络地址范围内的 IP 地址。
建议:
计算集群和接入点的 Pod 会直接占用 VPC 子网 IP,请尽量选择 IP 数量充足且与其他产品使用无冲突的网段。用户可在同一个引擎网络下购买多个计算引擎,通过接入点进行统一管理。
配置方式1:购买页选择引擎网络或点击创建生成
您可以通过在购买页的引擎网络配置项,创建使用 DLC 提供的默认引擎网络(无需配置,自动生成)或填写您的自定义网段。






创建方式二:在标准引擎功能页创建




第二步:购买接入点

为提供更高安全性及并发查询性能保障,DLC 标准引擎需要搭配接入点使用。接入点将为您带来以下收益,详细介绍可参考 接入点介绍
降低查询时延:DLC 接入点可显著降低查询链路耗时,提升尤其是小数据量交互式分析性能表现;
更多接入方式支持:接入点支持 Hive JDBC/Presto JDBC 连接 DLC 标准引擎,满足多种查询场景;
企业级高安全性:通过 CAM 鉴权参数(AK/SK)进行身份验证、子用户引擎权限控制;
高可用性:接入点提供更高的可用性和负载均衡,支持扩容以承载极高的并发查询。
注意:
1. 接入点与引擎网络为一一对应的关系,购买接入点前,请确认引擎网络是否正确。
2. 一个接入点可关联多个标准引擎,但无法在无接入点下单独使用标准引擎。

一、接入点购买方式

进入 标准引擎 功能页面,单击立即购买,进入 DLC 接入点购买页,选择购买接入点的规格与输入相关信息。









二、接入点规格选择建议

接入点规格
Spark Batch 瞬时并发提交任务数/并行运行任务数
Spark SQL /Presto SQL 并发查询
Presto 引擎管理数量
Spark 资源组管理数量
接入点是否 HA
2CU
30/50
100
4
50
16CU
80/150
250
12
150
32CU
220/400
600
35
400
64CU
400/600
1000
70
700
注意:
接入点最小规格为2CU,由于不具备高可用仅能用户测试验证场景,建议生产环境选择16CU以上。

第三步:购买引擎

接入点与引擎网络配置完成后,您可以根据业务诉求,购买合适的引擎进行任务。
说明:
1. 引擎不支持跨地域使用
2. 引擎与引擎网络为一一对应的关系,购买前,请确认引擎网络是否符合诉求。
3. 引擎规格建议:由于16CUs的集群规模较小,建议仅用于测试场景,真实生产场景建议选择购买64CUs以上规格的集群。
进入标准引擎功能页,点击创建资源,在购买页中,确认引擎网络是否正确后,开始选择引擎的类型与规格。







第四步:使用数据探索

选择标准引擎进行查询
说明:
根据标准引擎的类型不同,您需要切换对应的语法进行查询。
如您在数据探索选择的引擎类型为标准 Spark 引擎时,您可以通过使用 DLC 默认资源组、已创建的资源组或使用一次性资源组(自定义配置)进行任务资源分配。



获取全量结果
标准引擎目前仅支持工作台返回1000条查询结果,全量结果获取可参考以下方式:
使用引擎
获取方式
标准 Spark 引擎
通过 JDBC 获取全量结果。
如您有 COS 存储桶,可在 SQL 编辑器中,输入:
INSERT OVERWRITE DIRECTORY 'cosn://xxx/xxx'
USING parquet
SELECT * FROM `DataLakeCatalog`.`database`.`table`
标准 Presto 引擎
通过 JDBC 获取全量结果获取。

第五步:配置资源组(可选)

资源组是对 Spark 标准引擎计算资源的二级队列划分,具体介绍可参考 资源组介绍。DLC Spark 标准引擎的计算单元(CU)可按需被划分到多个资源组中,并设置每个资源组可使用CU数量的最小值和上限、启停策略、并发数和动静态参数等,从而满足多租户、多任务等复杂场景下的计算资源隔离与工作负载的高效管理。
当您购买的引擎为标准 Spark 引擎时,数据湖计算 DLC 会为您提供默认资源组及支持您可以根据实际业务诉求,生成多个自定义资源资源组灵活使用。
说明:
引擎与资源组为一对多关系,例如,引擎 A 下,可以有若干个资源组。

管理与配置资源组

1. 单击进入对应引擎的资源组管理。



2. 进入资源管理组界面,单击创建资源组,进行自定义资源组配置。或查看使用 DLC 默认配置资源组(无需配置)。