有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
数据湖计算 DLC 提供了基于原生 Spark 的批处理、流计算能力,支持用户通过数据任务进行复杂的数据处理、ETL 等操作。 目前数据作业的 Spark 相关版本支持如下:
Scala 2.12.* 版本。
Spark 3.2.1 版本。
更多 Spark 版本环境信息可参见 Spark 环境说明

使用准备

在开始使用数据作业前,为了保证您的数据安全,您需要先创建数据访问策略,数据访问策略指定了您的数据作业可以访问的 COS 路径和文件。详细配置说明请参见 配置数据访问策略。 如数据作业需要访问其他数据源,需对数据引擎进行网络配置后,选择对应数据引擎即可实现数据访问、处理。网络配置方式及详细说明参见 引擎网络配置

计费模式

数据作业将根据使用数据引擎进行计费,目前支持按量计费和包年包月两种模式。详情可参见 数据引擎说明
按量计费:适合数据作业量较少或周期性使用的场景,创建作业后拉起使用,作业运行完成后自动挂起不再产生费用。
包年包月:适合数据作业量较大同时很稳定使用的场景,按月付费预留资源,无需等待数据引擎拉起。
注意
由于数据作业与 SQL 作业的计算引擎类型差异,需要单独购买 Spark 作业类型的数据引擎,无法使用 SparkSQL 类型的数据引擎运行数据作业。

作业管理

通过数据作业管理菜单,您可以对数据作业进行创建、启动、修改、删除。
1. 登录 数据湖计算控制台,单击左侧菜单数据作业进入数据作业管理页。
2. 单击创建数据作业按钮,即可创建新的数据作业,详细步骤请参见 创建数据作业
3. 在列表内可以查看数据作业当前任务的状态,同时支持管理数据作业,详细步骤请参见 管理数据作业