创建数据作业

最近更新时间:2022-09-15 16:29:15

我的收藏

前期准备

在开始创建数据作业前,您需先完成数据访问策略配置,以保证数据作业能安全的访问您的数据。配置步骤请参见 配置数据访问策略

创建步骤

1. 登录 数据湖计算 DLC 控制台,单击左侧菜单数据作业进入数据作业管理页。
2. 单击创建作业按钮,进入创建页。n


配置参数如下:
配置参数
说明
作业名称
支持中文、英文、数字和“_”,最多100个字符
作业类型
批处理:基于 Spark jar 的批处理数据作业
流处理:基于 Spark Streaming 的流式数据作业
程序包
支持 jar 格式。
支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如程序包超过5MB可先将程序包上传到 cos 后使用。
支持直接填写 cos 存储路径
主类(Main Class)
选择 jar 文件时必填。jar 包的主类参数,多个参数使用空格分割
程序入口参数
非必填。程序的入口参数,支持填写多个。多个参数使用“空格”分割
作业参数
非必填。作业-config 信息,spark.开头的参数,按照k=v格式填写,多个参数换行填写。
示例:spark.network.timeout=120s
依赖 jar 资源(--jar)
非必填。支持 jar 格式,可选择多个
支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如资源超过5MB可先将资源上传到 cos 后使用。
支持直接填写 cos 存储路径,多个路径以“;”隔开
依赖 py 资源(--py-files)
非必填。支持 py、zip、egg 格式,可选择多个
支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如资源超过5MB可先将资源上传到 cos 后使用。
支持直接填写 cos 存储路径,多个路径以“;”隔开
依赖 files 资源(--files)
非必填。暂不支持 jar、zip 格式,可选择多个
支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如资源超过5MB可先将资源上传到 cos 后使用。
支持直接填写 cos 存储路径,多个路径以“;”隔开
依赖 archives 资源(--archives)
非必填。支持 tar.gz、tgz、tar 格式,可选择多个
支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如资源超过5MB可先将资源上传到 cos 后使用。
支持直接填写 cos 存储路径,多个路径以“;”隔开
CAM Role arn
在作业配置中配置的数据访问策略,指定了数据作业可访问的数据范围。详细配置说明参见 配置数据访问策略
资源配置
可配置数据作业的引擎资源,可配置资源数不超过所选的数据引擎规格。资源说明:1CU≈1核4G
计费 CU 数 = Executor 资源 * Executor 数量 + Driver 资源
按量计费的数据引擎费用将按计算 CU 数的使用量收取
3. 完成配置填写后,保存即可完成创建。