简介
TCHouse-X 提供了基于 Spark 的离线数据处理能力,支持用户通过数据任务进行复杂的数据处理、ETL 等操作。TCHouse-X 离线引擎完全兼容 Spark 3.5.3 内核,Spark 作业的开发可参考 开发指南。
使用指引
前置准备
创建数据作业
1. 登录 TCHouse-X 控制台,进入实例,单击左侧菜单数据作业 > 作业列表进入数据作业管理页。
2. 单击新建作业按钮,进入创建页。
3. 配置作业内容, 配置参数如下:
配置参数 | 说明 |
作业名称 | 支持中文、英文、数字和“_”,最多100个字符 |
Spark 版本 | 当前仅支持 Spark 3.5.3 版本 |
程序包 | 支持 jar、py 格式文件,仅可配置一种类型 支持选择对象存储 cos 内文件或本地上传,本地上传先选择 cos 存储桶后,可进行文件上传操作 |
程序入口参数 | 非必填。程序的入口参数,支持填写多个。多个参数使用“空格”分割,多个 SQL 请使用 -sql 换行填写,不超过65535 个字符。 |
作业参数 (--config) | 非必填。作业--config 信息,spark.开头的参数,按照 k=v 格式填写,多个参数换行填写,不超过 65535 个字符。 示例:spark.network.timeout=120s |
依赖 jar 资源(--jar) | 非必填。仅支持 jar 格式,可选择多个 支持选择对象存储 cos 内文件或本地上传,本地上传先选择 cos 存储桶后,可进行文件上传操作。 |
依赖 py 资源(--py-files) | 非必填。支持 py、zip、egg 格式,可选择多个 支持选择对象存储 cos 内文件或本地上传,本地上传先选择 cos 存储桶后,可进行文件上传操作。 |
依赖 files 资源(--files) | 非必填。暂不支持 jar、zip 格式,可选择多个 支持选择对象存储 cos 内文件或本地上传,本地上传先选择 cos 存储桶后,可进行文件上传操作。 |
依赖 archives 资源(--archives) | 非必填。支持 tar.gz、tgz、tar 格式,可选择多个 支持选择对象存储 cos 内文件或本地上传,本地上传先选择 cos 存储桶后,可进行文件上传操作。 |
资源配置 | 配置数据作业的引擎资源,离线数据作业使用 Serverless 弹性资源,作业启动时资源开始运行,作业停止后资源自动销毁,无需您手动管理资源。 资源说明:1CU≈1核4G 计费 CU 数 = Executor 资源 * Executor 数量 + Driver 资源 计算费用将按计算 CU 数的使用量*使用时间收取 |
Executor 规格 | Executor 规格配置可选规格:2X-Small (4CU)、X-Small (8CU)、Small (16CU)、Medium (32CU)。注:1CU ≈ 1vCPU + 4GB RAM |
Executor 个数 | Executor 数量配置支持固定分配与动态分配两种模式。在动态分配模式下,仅需设置 Executor 的最小数量与最大数量,系统将根据作业负载自动调整资源。 |
Driver 规格 | Driver 规格配置可选规格:2X-Small (4CU)、X-Small (8CU)、Small (16CU)、Medium (32CU)。注:1CU ≈ 1vCPU + 4GB RAM |
4. 完成配置填写后,单击创建并启动可以直接运行任务。单击仅创建保存任务配置。
管理数据作业
作业列表展示了您已创建的所有数据作业,您可以通过操作栏对作业进行以下管理:
编辑:修改作业的配置信息。
启动控制:手动启动作业任务。
删除:移除不再需要的作业实例。
编辑数据作业
已创建的数据作业支持编辑操作,您能够修改作业相关配置。
1. 进入管理页:登录TCHouse-X 控制台 并进入实例,在左侧导航栏依次选择 数据作业 > 作业列表。
2. 在作业列表找到需要编辑的作业,点击编辑按钮进入作业编辑页面。
3. 编辑完成后支持保存并启动或者仅保存。
注意:
数据作业存在运行中的数据任务时,无法编辑。
启动数据作业
您可以通过启动或停止操作来控制作业的运行。每次启动作业都会触发生成一个独立的数据任务。
操作步骤:
1. 执行启动:在“作业列表”中定位目标作业,单击操作列的 启动 按钮。
2. 追踪任务:启动后,系统将生成对应的任务实例。您可以在作业名称左侧的展开列表或作业运行记录中查看任务进度。
查看作业详情
1. 进入管理页:登录 TCHouse-X 控制台 并进入实例,在左侧导航栏依次选择 数据作业 > 作业列表。
2. 查看详情:在作业列表中,点击目标 作业名称 即可进入作业详情页。
删除数据作业
1. 进入管理页:登录 TCHouse-X 控制台 并进入实例,在左侧导航栏依次选择 数据作业 > 作业列表。
2. 在作业列表找到需要删除的作业,点击删除按钮。
3. 二次确认后即可完成删除。
注意:
数据作业存在运行中的数据任务时,将无法被删除。
删除数据作业将同时删除对应的数据任务信息,请谨慎操作。